Backup off-site de terabytes de dados

5

Estou procurando uma maneira de criar um backup externo de cerca de 8 TB de dados. Eu atualmente dividi os dados em sistemas de arquivos 2-4TB e estou usando o ShadowProtect para fazer backup dos dados de um servidor SBS 2003 para um servidor de backup do Windows 2003 usando um backup completo semanal e incrementos noturnos.

Não estou muito feliz com essa solução por vários motivos.

  • Demora muito para fazer backup.
  • Realizar mais de uma semana de backups requer muito espaço.
  • Backups externos para HDDs externos exigiriam muitos discos e muito tempo.
  • Backups fora do local pela Internet exigiriam muita largura de banda.

O que eu estou procurando, se possível, é de alguma forma ter um servidor de backup local para abrigar muitos instantâneos sem armazenar dados duplicados como faubackup parece ser capaz de fazer. Além disso, gostaria de poder abranger os backups feitos em um conjunto de discos externos, sem dados duplicados, porque os sistemas de arquivos são maiores do que eu posso colocar em um único disco.

Corrija-me se estiver errado, mas, até onde posso dizer, é uma situação um pouco impossível para abranger os novos dados em mais sistemas de arquivos do que o próprio faubackup usa devido ao uso de hardlinks.

Eu também estive pensando em usar o openfiler de alguma forma para alcançar os mesmos objetivos, mas ainda não pensei em um caminho.

Como outras pessoas lidam com backups externos de grandes quantidades de dados.

editar :
Para obter um pouco mais de informações básicas, somos uma empresa de geologia relativamente pequena (cerca de 15 funcionários), onde basicamente tiramos grandes conjuntos de dados e os tornamos legíveis. Os projetos geralmente acontecem em centenas de Gigs. Apesar da importância dos backups externos, terei dificuldade em conseguir o dinheiro necessário para comprar um carregador automático de fita que fará o tipo de dados que estamos vendo. Eu tentei e foi basicamente dito que deve haver outro caminho e eu tenho que encontrá-lo.

Nós temos dois servidores. Um servidor SBS2003 e um servidor Windows 2003 R2 que é usado como servidor de backup. Ambas as máquinas possuem um array RAID6 de 20TB que abriga nossos dados. Em qualquer dia, bem como coisas comuns, haverá pequenas modificações em muitos arquivos muito grandes.

    
por resonator 17.06.2009 / 07:49

6 respostas

2

Temos ~ 1TB de dados e fazemos backup de todas as noites usando scripts rsync personalizados. O bom do rsync é que ele copia apenas os bytes modificados (não o arquivo inteiro modificado) ... além disso, compacta os dados antes da transferência.

Em nosso sistema antigo, tínhamos que armazenar fitas e discos em casa, pois todos os dias cerca de 200 GB de arquivos foram modificados. Mas, com o rsync, apenas 1 GB ou mais de dados modificados nesses arquivos são transmitidos e compactados para ~ 200 MB. Como resultado, podemos fazer backup de tudo em um site remoto sobre um T1 em poucos minutos (e menos de uma hora em um dia de manutenção muito pesado). Os scripts também utilizam links rígidos do Linux para manter 30 dias de arquivos completos (não incrementais) usando apenas 2 a 4 TB (antes da compactação) do espaço. Então, acabamos sendo capazes de restaurar os dados arquivados em segundos, além de manter o armazenamento externo.

Felizmente, o espaço em disco acompanhou o crescimento de nossa empresa ... Acho que nossa solução total em ambos os locais custou ~ $ 1.000.

    
por 18.06.2009 / 06:58
4

É exatamente por isso que a maioria das empresas faz backups em fita (mídia de custo mais baixo que discos, velocidade de gravação de fluxo rápido) e, em seguida, move fisicamente as fitas para fora do local.

Você pode fazer com que o cara de TI carregue as fitas para casa ou existem empresas de arquivamento de dados que acessam sua empresa, pegam as fitas e as armazenam em suas instalações seguras. A recuperação é tão simples quanto chamar a empresa para colocar a fita, carregá-la e acessar seus dados.

A internet é boa para muitas coisas, mas mover terabytes de dados não é um deles. Veja o artigo de Jeff sobre The Economics of Bandwidth que faz referência ao excelente whitepaper da Microsoft Research de Jim Gray TeraScale SneakerNet (.DOC)

    
por 17.06.2009 / 22:09
2

Você está procurando um sistema de armazenamento que forneça deduplicação de dados: link

Isso não vai aliviar o requisito de obter dados fora do site de alguma forma, mas definitivamente ajudará a diminuir a quantidade de espaço necessária para seus backups ativos / ativos.

    
por 17.06.2009 / 23:20
0

você pode querer olhar para backuppc, ele tem que rodar em uma caixa linux mas ele armazena arquivos usando hard links então se o arquivo não tiver mudado desde o ultimo inc / full então ele apenas linka para ele (então a quantidade de espaço para armazenar backups completos 4x é muito menor do que outros sistemas de backup) Ele pode fazer backup de máquinas com Windows via samba e, obviamente, também faz o backup de linux / unix / macs

Backuppc

    
por 17.06.2009 / 08:10
0

Temos uma SAN de réplica em outro datacenter do qual fazemos snap e fazemos backup.

    
por 17.06.2009 / 08:26
-1

Como seus dados são facilmente divididos em unidades discretas mais gerenciáveis (projeto ou trabalho ou o que você quiser chamá-lo), por que não apenas fazer uma cópia em um drive USB barato e armazená-los em algum lugar? Você pode obter unidades de 3 TB por menos de US $ 200 e unidades menores por consideravelmente menos.

    
por 10.06.2011 / 17:25