Como fazer backup de 20 + TB de dados?

83

Temos um servidor NAS na empresa em que trabalho, que está sendo usado para armazenar sessões de fotografia. Cada sessão é de aproximadamente 100 gb. Nos últimos dois anos, esse servidor acumulou mais de 10 TB de dados e estamos aumentando a quantidade de fotos exponencialmente. Eu estimo que até o final do próximo ano teremos mais de 20 TB armazenados neste NAS. No momento, estamos fazendo backup desse servidor em fita usando fitas LTO-5 com o Symantec BackupExec. Como o tamanho desse servidor aumentou, os backups completos desse servidor não estão sendo concluídos durante a noite. Alguém tem alguma sugestão sobre como fazer backup dessa quantidade de dados? Devemos estar fazendo o backup em fita? Existem outras opções que podem ser melhores?

    
por Jesus Fidalgo 12.12.2012 / 04:50

8 respostas

110

Você precisa dar um passo para trás e parar de pensar "Eu tenho 20 TB no meu NAS. Eu preciso fazer o backup!" e desenvolver uma estratégia de armazenamento que leve em consideração a natureza dos seus dados:

  • De onde vem e quanto você recebe novos dados? (você tem isso na sua pergunta)
  • Como os dados são usados uma vez que você os tem? As pessoas estão editando as fotos? Você mantém os originais e gera versões editadas?
  • Por quanto tempo você precisa manter todos os dados? As pessoas ainda estão fazendo alterações nas fotos de dois anos atrás?

Dependendo das respostas das duas últimas perguntas, você provavelmente precisará de mais de um Sistema de arquivamento do que um sistema de backup radicalmente diferente.

Os dados estáticos (por exemplo, fotos com 2 anos de idade que você mantém "apenas no caso") não precisam de backup todas as noites, ou até mesmo todas as semanas, precisam ser arquivadas. O que você realmente faz pode ser mais complexo, mas, conceitualmente, todas as imagens antigas podem ser gravadas em fita (várias cópias!) E sem backup.

Com base nos seus comentários, alguns pensamentos adicionais:

  • Como você mantém inalterados os originais de cada sessão e trabalha em uma cópia, e supondo que pelo menos algumas das imagens originais sejam insucessos, talvez seja possível reduzir a quantidade de dados que precisam de backup ao meio.

  • Se você ainda não conseguir concluir um backup completo em qualquer janela de tempo, uma maneira comum de acelerar o processo é primeiro fazer um backup de disco para disco e, depois, copiar o backup. para gravar.

por 12.12.2012 / 05:19
12

Você tem duas opções:

Opção 1:

  1. Compre outro NAS
  2. Conceda aos usuários acesso RO ao novo_NAS
  3. Mova todos os arquivos com mais de 2 anos para new_NAS
  4. Continue fazendo o backup do old_NAS como de costume
  5. a cada seis meses, mova os arquivos com mais de dois anos para new_NAS

Opção 2:

  1. Compre outro NAS
  2. Executar rsync a cada hora: old_NAS - > new_NAS

    ou melhor usar algo como rdiff-backup que faz rsync + mantém deltas com alterações de arquivo (você pode restaurar versões mais antigas dos arquivos)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. A cada 6 meses, limpe arquivos antigos com algo como:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    
por 12.12.2012 / 16:07
2

Por que seus backups precisam ser concluídos durante a noite? Desempenho do servidor de arquivos? Você pode restringir a largura de banda do seu software de backup para limitar o impacto durante o dia. Ou dedique uma interface no seu NAS para conversar com a unidade de fita para limitar o impacto em outro tráfego.

Você pode executar lixões completos nos finais de semana e fazer apenas incrementais durante a semana? Se o problema está mudando as fitas no final de semana quando não há ninguém por perto, uma biblioteca de fita / autochanger barata custa muito menos do que pagar alguém para trocar as fitas.

Você pode segmentar seus dados em vários grupos pequenos o suficiente para serem concluídos na janela de backup?

Temos cerca de 50 TB de dados em um NAS e demora mais de uma semana para obter um despejo completo de toda a coisa usando duas unidades de fita (um volume demora quase uma semana, porque contém muitos arquivos minúsculos). O que fazemos é replicar nossos dados para um segundo NAS. Nosso NAS secundário está no local (mas em um datacenter diferente do primário), portanto, ainda colocamos os dados em spool em fita para backup fora do local. Nós executamos backups desse NAS secundário para que os backups não atrasem ninguém.

Se você puder colocar seu NAS secundário longe o suficiente, ele poderá ser o seu backup, sem necessidade de fitas.

    
por 12.12.2012 / 19:47
1

Estou apenas em dúvida sobre o tamanho de cada sessão de filmagem, é realmente 100gb / sessão? Quantas sessões sua empresa realiza mensalmente?

Como você está armazenando principalmente sessões antigas que não serão usadas com frequência, etc., e provavelmente não precisa recuperar essas informações com frequência, sugiro que use os serviços de alguma empresa para cuidar disso. tarefa para você.

Apenas por exemplo, armazenar esses 20 TB usando um serviço online como o Amazon Glacier custaria um pouco mais de US $ 200 / mês. Se você precisar recuperar esses arquivos com frequência, ou até mesmo recuperar na íntegra, isso afetaria alguma restrição de tempo / custo. Se você apenas armazenar essas coisas "para ter certeza de que elas estão armazenadas", talvez usar uma terceira parte torne sua vida mais fácil (e até mais barata do que comprar outro NAS, fitas, etc.)

    
por 12.12.2012 / 13:15
1

full backups of this server are not completing overnight
Então tente backups incrementais? Um backup completo a cada xx dias, incremental o restante.

Os discos rígidos são baratos, mais rápidos que as fitas e podem ser usados para backup.

Além disso, há boas alternativas para backups na nuvem agora, portanto, não é necessário continuar adicionando mais e mais rápidas fitas.
Por exemplo:

por 12.12.2012 / 14:47
1

Acho que a melhor solução para isso é o que fazemos com nossos dados da folha de pagamento, o que deve ser mínimo para você implementar.

  • Inicialmente, ele é mantido com o restante dos dados do servidor cujo backup é feito diariamente. Nosso período de retenção nesses backups é de 13 meses.

  • Uma vez que não esperamos mais que os dados precisem ser modificados (dois períodos de pagamento posteriores, IIRC), os dados são (via script) salvos em um volume de arquivo excluído dos backups regulares.

  • O backup do volume do arquivo é feito anualmente, e as fitas são enviadas para o Cintas para armazenamento indefinido.

Isso nos permite ter acesso fácil e on-line a esses dados imutáveis (para que não precisemos chamar uma fita a qualquer momento em que um contador queira examinar alguma coisa), enquanto mantemos arquivos de dados indefinidos que precisaremos manter para sempre e sem esmagar o nosso sistema de backup. Parece que o mesmo tipo de configuração pode funcionar para você, embora você possa querer ajustar a quantidade de dados que mantém online, dependendo de suas necessidades para acessar esses dados em tempo hábil - 20 TB de armazenamento de nível empresarial é muito mais caro de arquivá-lo para dois ou três conjuntos de fitas LTO5 que você armazena em cofres externos.

    
por 12.12.2012 / 17:58
0

Talvez você possa criar seu próprio Backblaze Pod : 135Tb para 7384 $
Clique aqui para mais informações: Backblaze Pod informações sobre o edifício

Você pode comprar as peças necessárias e criá-las por conta própria.

Talvez você possa construir 3 deles e manter 2 no local e 1 externo. Em seguida, você pode usar um pod como "dados on-line", o segundo pod no local como um backup do primeiro pod e o terceiro pod externo como um backup externo de emergência.

Com 135Tb de armazenamento para cada pod você pode até pensar em manter algum histórico da mudança ...
135Tb / 20Tb = 19 cópia de backup completa .
Alternativamente, você pode manter 10 backups completos, além de uma quantidade ridícula de backup diferencial.

Naturalmente, se você quiser um backup externo, precisará de algum tipo de grande largura de banda ...: -)

    
por 18.12.2012 / 09:28
-1

Meu colega de trabalho comprou um NAS Synology de 8 discos. Ele executa um RAID híbrido. Ele comprou oito Barracuda Seagate de 3TB da NewEgg há algumas semanas por US $ 89 cada. Você poderia rsync espelhar do NAS de produção para este novo NAS sobre o GigaBit. Como você está apenas transferindo as diferenças, a transferência levará menos tempo. Em seguida, você pode usar o NAS de backup para executar total ou incrementais. O custo para você seria inferior a US $ 2000 para um NAS de backup.

    
por 12.12.2012 / 17:38