Eu trabalho em um laboratório que tem que suportar alguns aplicativos de usuário bastante intensivos do processador, mas basicamente não há necessidade de armazenamento em disco local, porque não garantimos qualquer tipo de persistência de dados. No entanto, sendo uma loja do Mac, ainda compramos os Mac Pros com configurações de armazenamento padrão. Dado que a política de gerenciamento é continuar comprando muito mais capacidade de disco do que usamos, existe alguma maneira de construir algum tipo de armazenamento distribuído de arquivos nesses discos?
Idealmente, ele pode ser usado para armazenar diretórios pessoais de usuários, mas, como atualmente temos mais de 15 TB indo totalmente para o lixo, teríamos prazer em aceitar um aplicativo mais tolerante à latência como, por exemplo, armazenar tarballs de diretórios home para serem baixados e extraídos por um hook de login, ou até arquivamento de backups de servidor.
Requisitos:
- cliente (usuário de dados), nó (gerenciador de dados) e qualquer software de servidor (coordenador?) possível executado no Mac OS 10.5 e superior
- altamente tolerante a falhas: os "nós" também são estações de trabalho de usuários que podem ser reinicializadas a qualquer momento; a equipe, é claro, tomaria todas as providências necessárias antes de retirar a máquina para manutenção ou aposentadoria por mais tempo.
- é executado em hardware de commodity: hardware de commodity bastante sofisticado, mas ainda hardware de commodity, sem FibreChannel ou SCSI
Bônus:
- compatível com posix: seria ótimo se, ao contrário do Hadoop, ele se apresentasse como uma montagem NFS comum ou algo assim
No momento, o MogileFS parece o melhor candidato, com o Hadoop batendo-o para suporte futuro. Eu também li sobre o Gluster, mas não sei o que o diferencia da concorrência. Qualquer conselho seria apreciado. Eu percebo que executar estações de trabalho de usuário como nós de armazenamento enquanto os usuários estão trabalhando nelas é uma tarefa muito difícil.
Eu também apreciaria se alguém pudesse me dizer qual aplicativo é chamado, já que a Wikipedia alega que "sistema de arquivos distribuído" realmente se refere a coisas como NFS e BitTorrent (?!).
relacionado: Sistema de arquivos distribuído, paralelo e tolerante a falhas , < a href="https://serverfault.com/questions/36065/which-distributed-file-system-as-a-backend-for-cloud-computing"> Que sistema de arquivos distribuídos como back-end para computação em nuvem?