Ao olhar para um cluster científico e desempenho, aqui estão alguns dos principais gargalos que vejo:
- Que tipo de rede você tem. Sim, você diz que tem gigabit ethernet, mas está usando comutadores sem bloqueio para que todos os nós do switch possam obter taxas de linha completas?
- Você está usando um sistema de arquivos distribuídos ou um NAS otimizado?
- Todos os seus links estão na linha completa? Novamente, isso remonta ao primeiro ponto, mas você ficaria surpreso com o que você encontrará executando o iperf ocasionalmente nos nós
- Qual é a sua latência? Isso pode surgir como um problema de tempos em tempos com redes gigabit se você tiver problemas de rede e realmente pode acabar com os aplicativos que precisam usar o MPI.
- Quais são as configurações do seu dispositivo principal em
network-scripts
? Sua MTU está configurada para 9000?
Normalmente, o Iperf pode ser encontrado nos sistemas RHEL
/apps/rhel5/iperf/bin/iperf
Para executar o iperf, primeiro configure um servidor em um nó.
/apps/rhel5/iperf/bin/iperf -s
Em seguida, do nó que você deseja testar o link
/apps/rhel5/iperf/bin/iperf -c <host or IP of server>
Se tiver sucesso, você verá uma saída como esta no cliente:
------------------------------------------------------------
Client connecting to <host or IP of server>, TCP port 4200
TCP window size: 256 KByte (default)
------------------------------------------------------------
[ 3] local 123.11.123.12 port 4400 connected with 123.456.789.12 port 4200
[ ID] Interval Transfer Bandwidth
[ 3] 0.0-10.0 sec 1.1 GBytes 1.01 Gbits/sec
Se você não o tiver instalado, ele pode ser facilmente recuperado em muitas plataformas de repositórios e está disponível gratuitamente para download e compilação a partir da fonte, se não for. Execute isso em cada nó para ver se há um problema com o fio Ethernet real. Depois disso, execute-o em todos os nós para ver se ele ataca o switch.