Qual sistema de arquivos distribuído realmente atende às minhas necessidades?

2

Me ouça

Eu já vi a pergunta feita (em diferentes formas) aqui , aqui , e talvez o melhor que encontrei foi aqui , mas eu não acho que isso é uma duplicata porque já passou algum tempo desde que essas perguntas foram feitas, e minha pergunta tem suas próprias nuances que podem ajudar os outros em situações semelhantes. Por favor, me ouça.

Antecedentes

Minha pergunta vem de muitos sistemas de arquivos distribuídos que anunciam que são incríveis, mas suspeito que nem todos eles são o que eu preciso.

Eu procurei nesta incrível lista para sugestões sobre o que está disponível e não tenho certeza qual deles atende às minhas necessidades.

Caso de uso

O objetivo deste servidor é manter meus dados seguros e disponíveis para uso geral. Estarei usando-o para armazenar meus backups pessoais e dados armazenados e usados pela Nextcloud, Gogs e qualquer outra coisa que eu hospede no futuro.

O que estou procurando

Estou procurando um sistema de arquivos distribuído que:

  • protege contra a podridão de bits
  • possui codificação de eliminação (ou, pelo menos, duplicação de dados, para que a falha da unidade não interrompa o uso)
  • capacidade de escalar
    • de 1 servidor para mais tarde
    • de 2 HDDs para mais tarde
  • pode se conectar por meio do fusível

API poderosa e facilidade de uso são grandes pontos positivos.

Meu hardware atual

Isso pode não ser importante, mas pode ajudar com dicas sobre a implementação.

Atualmente tenho um Raspberry Pi, um HDD de 2 TB e um HDD de 4 TB. Eu planejo adicionar mais um HDD de 2 TB em um futuro próximo, e mais servidores com muito mais HDDs no futuro distante (o dinheiro está apertado agora; sou um pobre estudante universitário).

Minha solução atualmente proposta

Eu pesquisei muito isso, e eu entendo que isso é um pouco demais, mas aqui está o que eu tenho até agora:

Estou pensando que o Ceph é atualmente a minha melhor aposta quando se trata de flexibilidade e parece estável.

Meu plano seria colocar o BTRFS nas unidades para lidar com a podridão de bits e, em seguida, executar o Ceph como um cluster de nó único para expansão posterior.

Perguntas sobre como isso funcionaria

Algumas perguntas específicas que tenho sobre minha configuração proposta:

  1. Eu sei que o BTRFS pode ter proteção contra a podridão, mas é por padrão? O que preciso para que seja ativado?
  2. Eu sei que a inconsistência no tamanho da unidade pode ser um problema (uma de 2 TB, uma de 4 TB), mas funcionará até eu receber outra unidade de 2 TB?

Obrigado

Eu realmente aprecio você lendo até aqui:)

    
por Michael 03.10.2017 / 06:42

1 resposta

0

Nos últimos meses, acho que descobri o suficiente para responder a essa pergunta.

Primeiro, o Raspberry Pi durou apenas tanto tempo que acabei atualizando para um computador real com ótimas especificações. Eu decidi que só tinha duas opções para o que eu precisava, BTRFS e Ceph .

BTRFS

Esta é a melhor opção para um único nó com vários discos. Atualizar para o Ceph posteriormente para os recursos distribuídos não é muito difícil, e é muito fácil trabalhar com o BTRFS.

Algumas razões são ótimas:

  • Proteção automática do bitrot silencioso. Se houver um erro de soma de verificação, ocorrerá um erro.
  • Cura automática do bitrot no Raid 1. Ele detectará o erro e substituirá os dados errados pelos dados corretos de outro disco no array do RAID 1.
  • Lidar com o BTRFS ao vivo é muito fácil. Os utilitários de linha de comando são ótimos.
  • Pode lidar com discos de tamanhos diferentes, mas às vezes resulta em espaço não utilizado.

Ceph

  • Pode distribuir entre nós.
  • Também tem proteção de bitrot com o BlueStore.
  • Pode exigir muito poder de processamento e processamento em comparação a outros. Provavelmente por causa do ótimo conjunto de recursos.

O que eu decidi fazer

Como ainda tenho apenas um único nó, tenho um array BTRFS raid 1 com um SSD de 2 TB e dois SSDs de 1 TB. Isso está funcionando muito bem, e adicionar o SSD de 2 TB mais tarde foi fácil.

Eu planejo mudar para o Ceph quando tiver mais servidores e fizer mais sentido. Mover os dados não deve ser muito difícil então. O único problema é ter armazenamento disponível suficiente para movê-lo de um lugar para outro.

    
por 07.04.2018 / 22:54