Backup do ZFS com unidades off-line em rotação

1

Atualmente, estou no processo de configurar um NAS doméstico decente. A principal preocupação é a integridade dos dados e, portanto, decidi usar o ZFS como um sistema de arquivos. Infelizmente isso coloca alguns requisitos (ou recomendações para ser mais preciso) no hardware que tornam uma solução bastante cara. Isso me impede de implementar um backup externo em um sistema semelhante e, portanto, estou procurando uma solução alternativa.

Idealmente, eu teria três discos rígidos removíveis, dos quais um ficaria perto do servidor e estaria conectado semanalmente. Os outros permanecerão fora do local e serão rodados de vez em quando. Estou ciente de que isso representa um risco para novos dados, mas estou planejando fazer o backup de forma alternativa.

A questão é o que devo colocar nas unidades removíveis. Inicialmente pensei em colocar um zpool em cada um e usar zpool send e zpool recv para atualizá-los, como aqui . No entanto, acho que é bem possível que as unidades estejam "danificadas" quando eu precisar recuperar o backup e gostaria que o ZFS cuidasse disso. O ideal seria que todas as três unidades removíveis estivessem em uma configuração de espelhamento até dois swaps de unidade atrás, o que permitirá que o ZFS use todos eles para corrigir problemas nos dados antigos ao restaurar o backup. No entanto, as unidades nunca serão conectadas ao mesmo tempo, portanto, isso pode não ser possível. O ZFS fornece um meio de implementar o que eu estou procurando ou devo usar um método diferente?

    
por Octaviour 28.08.2017 / 13:29

1 resposta

1

Unfortunately this does put some requirements (or recommendations to be more precise) on the hardware that make it a rather expensive solution. This prohibits me from implementing an off-site backup on a similar system and I am therefore looking for an alternative solution.

Não sei exatamente quais são suas necessidades de hardware e desempenho, mas saiba que sistemas decentes podem ser bem baratos se você souber o que está procurando e aceitar algumas desvantagens. Especificamente:

  • A quantidade de RAM necessária que você encontra on-line é muito exagerada, porque a RAM é barata em comparação com dezenas de discos, e a RAM é fundamental para o desempenho (como é usado para o ARC e a desduplicação). Se você precisa apenas saturar um link Ethernet de 1 Gbps (~ 110 MB / s) e ter principalmente carga de trabalho de fluxo (ou seja, disco em vez de RAM ser acessado constantemente), 4 a 8 GB de memória são suficientes (até 2 GB ainda funcionarão) .
  • Discos corporativos com 7200 rpm, conectores SAS, baixa contagem de erros e taxa de transferência de 200 MB / s são bons, mas também não são realmente necessários. Duas unidades consumidoras de 5200 rpm podem saturar sua ethernet sem problemas. As leituras aleatórias serão mais lentas, mas você não tem centenas de clientes que também desejam acessar arquivos diferentes por segundo.
  • Um HBA da LSI com 8 portas SAS é uma opção confiável, mas pode ser caro. A maioria das portas SATA de hardware em placas de servidor é da Intel e também bastante confiável. Eles também consomem menos energia. Novamente, a velocidade não importa aqui, pois você não tem SSDs ou usa multipathing ou extensores.
  • O poder da CPU é quase sem sentido, todas as CPUs atuais do servidor têm muita energia. Alguns Celerons dual-core na faixa de 30 € também suportam memória ECC, além de poder usar Atom SoCs de baixa potência ou dualcores ou quadcores de baixo consumo de energia da AMD. Essas placas também costumam ter 6 portas SATA e um PCIe para extensão posterior, além de suporte para 16 a 64 GB de memória, a cerca de 300 €, incluindo CPU, memória e fonte de alimentação.
  • Além disso, existem algumas ofertas de servidores SoHo de grandes empresas como a Dell ou a HP, onde você pode obter um servidor completo por 300 € (economias de escala), incluindo case, disco e garantia. As opções de expansão são limitadas, mas ainda há 4 a 6 discos.
  • Finalmente, se você mora em algum lugar onde a energia é barata, você pode olhar para o hardware empresarial usado. Esses sistemas são rápidos, duráveis e baratos, mas também altos e sedentos de energia. Você tem que calcular se o trade-off vale a pena.

I do however think that it is quite possible that the drives are "damaged" once I need to put back the backup and I would like ZFS to take care of that. Ideally all three removable drives would be in a mirror configuration up to two drive swaps ago, which will allow ZFS to use all of them to fix problems in the old data when restoring the backup.

A meu ver, é muito improvável que seu sistema ao vivo com pelo menos um espelho bidirecional e três discos externos morra ao mesmo tempo. Se um dos backups ainda puder ser usado, você teria perdido apenas os dados de uma semana, o que é muito menos grave (e pode ser mitigado, por exemplo, por meio de backup on-line diferencial de apenas arquivos recém-modificados).

Mas, supondo que isso aconteça, vamos comparar todas as possíveis configurações de backup (cada vez que seu sistema ativo tiver dois discos como espelhos e todos os cinco discos tiverem tamanhos iguais):

3 discos independentes, send / recv é usado para sincronizar dados com 3 pools

  • Os discos não podem corrigir erros de bit, mas podem detectá-los e você pode restaurar arquivos de outros discos
  • Como eles são independentes, você pode mantê-los em três locais e ter três backups diferentes (relacionados a erros do usuário, erros de software)
  • O tratamento é simples, pois cada disco / pool é tratado da mesma forma

3 discos como espelhos, enviar / recv é usado para sincronizar dados com 1 pool

  • Essencialmente, um sistema offline completo com muito boa resiliência
  • Por outro lado, você tem todos os ovos em uma cesta (roubo / fogo)

3 discos como espelhos degradados, como descrito na pergunta vinculada

  • Veja a resposta vinculada para up e downsides
  • Você também tem apenas uma versão

Então, em resumo: Depende do que é mais crítico para suas necessidades - vários pontos independentes no tempo, ou um único que seja mais resiliente contra falhas.

Se você optar pela segunda solução, lembre-se também de ativar instantâneos regulares de dados para proteger-se contra coisas como malware de criptografia (que seria mitigado por ter vários discos). Além disso, certifique-se de ainda distribuir os três discos e guarde-os em locais diferentes para proteger contra incêndio / roubo / perda.

    
por 07.09.2017 / 16:57

Tags