Existem várias maneiras de manipular dados desse tamanho. Muito disso depende do seu ambiente e quanto dinheiro você está disposto a gastar. Em geral, existem algumas estratégias gerais de 'tire os dados do servidor':
- Over the Ethernet Como diz na caixa, os dados são transmitidos para o Some Where Else para manipulação. 20 TB levará muito tempo para copiar mais de 1 GbE, mas isso pode ser feito. O hardware pode ajudar (como links 10GbE ou, em alguns casos, ligação NIC).
- Sobre o subsistema de armazenamento Se você estiver no Fibre Channel, envie-o para outro dispositivo na rede FC. Se você tiver o SAS, envie-o para um dispositivo conectado ao SAS. Geralmente mais rápido que a Ethernet.
- Envie para outra matriz de disco Envie para outro bloco de armazenamento anexado ao mesmo servidor.
Essa é a visualização de 100 km. Depois de começar a ampliar, as coisas ficam muito mais fragmentadas. Como já mencionado, o LTO5 é uma tecnologia de fita específica projetada para esses tipos de cargas de alta densidade. Outro storage array idêntico é um bom alvo, especialmente se você puder usar algo como o GlusterFS ou o DRBD para obter os dados por lá. Além disso, se você precisar de um backup rotação ou apenas a capacidade de continuar em execução no caso da matriz falhar afetará o que você colocar no lugar.
Depois de estabelecer um método de exibição de 100 km, entrar no software será a próxima grande tarefa. Fatores que influenciam isso são o que você pode instalar no seu servidor de armazenamento (se é um NetApp, uma coisa, um servidor Linux com um monte de armazenamento é outra coisa, assim como um servidor Windows com um monte de armazenamento) , qual hardware você escolhe (nem todos os pacotes de backup FOSS tratam bem as bibliotecas de fitas, por exemplo) e que tipo de retenção de backup você precisa.
Você realmente precisa descobrir que tipo de recuperação de desastre você deseja. A replicação ao vivo simples é mais fácil, mas não permite que você restaure a partir da última semana apenas agora. Se a capacidade de restaurar a partir da semana passada é importante para você, então você precisa projetar para esse tipo de coisa. Por lei (nos EUA e em outros países), alguns dados precisam ser preservados por mais de sete anos.
A replicação simples é a mais fácil de fazer. Isso é o que o DRBD foi projetado para fazer. Depois que a cópia inicial é feita, apenas envia alterações. Os fatores complicadores aqui são a localidade da rede, se a sua segunda matriz não estiver próxima do DRBD principal pode não ser viável. Você precisará de um segundo servidor de armazenamento com pelo menos o mesmo espaço de armazenamento que o primeiro.
Sobre backup em fita ...
O LTO5 pode conter 1,5 TB de dados sem compressão. Alimentar esses monstros requer uma rede muito rápida, que é Fibre Channel ou 6Gb SAS. Uma vez que você precisa fazer backup de mais de 1,5 TB em uma pancada, você precisa procurar em autoloaders (aqui está um exemplo: link , um autoloader de 1 unidade com 24 slots da HP). Com o software que os suporta, eles lidam com a alteração de fitas no meio de backup para você. Êles são ótimos. Você ainda terá que retirar as fitas para enviá-las para fora do local, mas isso é uma visão muito melhor do que ficar por aí a noite toda para carregar as fitas quando o backup ligar para elas.
Se a fita lhe der os heebiegeebies ' legado, ew ', uma Virtual Tape Library pode ser mais sua velocidade (como essa da Quantum: link ). Estes fingem ser bibliotecas de fita para software de backup enquanto na verdade armazenam coisas em disco com robustas (você espera) técnicas de desduplicação. Os mais sofisticados até copiarão fitas virtuais para fitas reais para você, se você gosta desse tipo de coisa, o que pode ser muito útil para rotações fora do local.
Se você não quiser mexer nas fitas virtuais, mas ainda quiser fazer backups diretos em disco, você precisará de um storage array grande o suficiente para lidar com esses 20TB, além da quantidade de net-change. dados que você deseja manter. Diferentes pacotes de backup lidam com isso de maneira diferente. Algumas tecnologias de desduplicação são realmente boas, outras são hack kludges. Eu pessoalmente não conheço o estado dos pacotes de software de backup FOSS nesta área (já ouvi falar do Bacula), mas eles podem ser suficientes. Muitos dos pacotes de backup comerciais têm agentes locais que você instala em servidores para fazer backup, a fim de aumentar o rendimento, o que tem muitos méritos.