Já faz um tempo desde que toquei o SLURM, então pegue o seguinte com um pouco de sal. Além disso, o design do cluster será determinado pela sua carga de trabalho. Geralmente, você começa com um nó principal e vários nós de computação e constrói a partir daí. Um pacote como o Rocks pode ser um bom lugar para começar.
Eu posso ver o diretório compartilhado sendo um problema. Dependendo da sua carga de trabalho, você já pode ter muito tráfego no NFS, então eu instalaria o SLURM localmente. Você pode disponibilizar uma cópia da sua configuração de slurm em um volume exportado do NFS e copiar no lugar com um script 'fornodes' ou usar um script scp. Se você está fazendo muitas mudanças na configuração do slurm, você pode até adicionar o slurmd restart ao script.
Em relação ao nó de controle de backup, eu não me preocuparia com isso. Seu nó principal é provavelmente um ponto único de falha, por isso, se você perder, já terá problemas com seus trabalhos. Eu também não tenho certeza de como o mecanismo de backup funciona para a contabilidade do SLURM se ele estiver ativado, já que normalmente ele usa um banco de dados como o MySQL.
Para exportações, eu normalmente exporto o diretório / home e / opt em clusters menores. Dependendo das suas necessidades de dados, você poderia considerar um nó de armazenamento separado com armazenamento adicional que distribuiria seu carregamento do NFS. Já que você mencionou que está tendo problemas com a estabilidade, pode considerar o uso de um pacote como o Ganglia, que monitorará a carga do nó, a utilização da memória, o rendimento da rede e outros valores e os apresentará em uma série de gráficos. Você também pode aprender bastante com as ferramentas de linha de comando, como o top running em seus nós de computação. Você também desejará testar o dimensionamento de seus trabalhos. Se seus trabalhos rodarem horrivelmente quando eles se expandem (MPI?), Você pode precisar de uma interconexão de latência mais baixa, como Infiniband ou Ethernet de 10 Gb.
Boa sorte com o SLURM. Eu gostei de usá-lo antes de mudar de emprego, mas como não é tão popular quanto as respostas do Torque / Maui ou Sun / Oracle Grid Engine às minhas estranhas perguntas, sempre foi difícil de encontrar.