Eu sou um estudante de Engenharia da Computação trabalhando em um projeto com um cluster de lâminas da Verari, um pouco desatualizado para os padrões atuais. Eu tinha adquirido alguma experiência Unix, mas não sou especialista em todos.
Esse cluster Verari possui 30 nós blade operacionais, 20 com dois processadores AMD de núcleo duplo (Opteron 250), ram de 4 Gb DDR e dois HDDs IDE de 250 gb. Os outros 10 blades de nó têm dois processadores Opteron quad core e 8 Gb ram, com os mesmos HDDs IDE. Esses 30 nós estão conectados a um patch panel que termina com dois switches gigabit, conectados uns aos outros com dois cabos cat-6 e ligação ativada em ambos os switches. Além disso, tenho uma estação de trabalho IBM que hospeda um servidor DNS, DHCP, HTTP, LDAP, PXE / TFTP e FOG para o meu domínio.
Minha missão é instalar um cluster do beowulf com este hardware. Ele será usado para programas de MPI, cálculos científicos e simulações geológicas.
Meu plano inicial é usar o CentOS 6.5 com um bom arquivo de kickstart para facilitar a implantação com uma configuração de software RAID 1 em cada nó, autenticação de usuário central com um servidor OpenLDAP, software OpenMPI e gerenciador de recursos SLURM.
Como não tenho um armazenamento central para usar ainda, tenho que procurar uma maneira de manter os diretórios home do usuário acessíveis para cada nó de computação, com uma sobrecarga mínima de desempenho e garantindo um pouco de redundância se as coisas derem errado ( este é um hardware de 2004 a 2006 e é mais suscetível a falhas).
O que eu pensei é usar compartilhamentos NFS automontados, com cada nó de computação exportando uma pasta / home e o caminho homeDirectory armazenado na conta do usuário ldap. Isso termina em até 30 servidores NFS em um link de gigabyte, misturando nós de armazenamento com nós de computação, não é uma boa prática, mas é o que eu recebi. Lembre-se que estes são HDDs IDE, então temos a boa e velha escrita e o gargalo de leitura lá.
Outra ideia que me vem à mente é usar um sistema de arquivos distribuído, misturando novamente nós de computação com nós de armazenamento. Eu tenho vermelho de GlusterFS, Ceph, AFS, PVFS2, OrangeFS e Lustre.
Para o que eu preciso, acho que o Lustre é o caminho a percorrer, mas é destinado a estar em um grupo de servidores NAS / SAN conectados aos nós de computação com Infiniband, Myrinet ou outro link de alta velocidade e baixa latência. Para usar o Lustre em minha infraestrutura, precisarei ter um nó central para MDT e MDS e os outros 29 nós como nós OST / compute. Posso recuperar em caso de falha com ambas as opções, mas não sei como o Lustre será dimensionado com mais de 30 nós agindo como unidades de armazenamento e computação ao mesmo tempo.
Alguém tem uma ideia melhor do que usar no meu projeto? Alguma experiência ou feedback com configurações semelhantes?
Agradecemos antecipadamente por suas respostas.