sincronização em tempo real para servidores de compartilhamento de arquivos [closed]

2

Eu gerencio um site de compartilhamento de arquivos, que está crescendo rapidamente em popularidade.

Neste momento, o meu aplicativo da web está no AWS elástico beanstalk, então, é claro, é escalável de maneira excelente, mas atualmente todos os arquivos são servidos em uma única caixa dedicada. A caixa está começando a maximizar sua conexão de 1gbps, então estou tentando pesquisar como escalar o armazenamento de arquivos também.

NB: Eu também tenho todo o arquivo sincronizado com o S3, mas é muito caro para atendê-los de lá devido às taxas de largura de banda do S3. Minha caixa dedicada é ilimitada.

Até agora eu vi falar de DRBD e Lsyncd, mas também não sinto o que estou procurando.

Qualquer conselho sobre a melhor configuração para executar várias caixas de armazenamento de arquivos Linux em tempo real, sincronizadas por trás de um balanceador de carga seria muito apreciado.

P.S - vale notar que meu cenário ideal é que eles estão sempre sincronizados, portanto, se um arquivo for adicionado a uma caixa, ele será sincronizado em todas as caixas. O mesmo para quando um arquivo é excluído.

    
por Ryan 05.10.2016 / 05:06

1 resposta

2

O GlusterFS é ótimo para isso, assim como o Ceph. O GlusterFS é mais fácil de gerenciar e não usa a replicação de nó a nó como um método primário de replicação ou distribuição de dados. Ele pode executar o espelhamento de blocos 2n ou 3n, em que um bloco é meramente um sistema de arquivos em um nó. Uma matriz completa de bricks é referenciada a um volume e um volume é montado como um compartilhamento NFS - com a exceção de que isso é gravação e leitura para vários nós, em vez de apenas um.

O Gluster se expande e sai lindamente, e não tem noção de um nó mestre. Todos os nós participam igualmente nos volumes dos quais são membros. São os clientes que se conectam ao GlusterFS que são responsáveis por distribuir os dados para todos os nós, em vez de cada nó responsável pela replicação dos dados. Dessa forma, você não precisa ter links de backhaul enormes e mal dimensionados.

O seguinte é um bom guia passo-a-passo sobre como configurá-lo: link

Também vale a pena ler a documentação do gluster: link

    
por 05.10.2016 / 05:48