Falhas de hardware ao construir novo cluster

0

Alguém da minha empresa está criando um cluster de alto desempenho (50 núcleos de CPU, meia dúzia de máquinas, 32 módulos de memória por máquina). Nós não somos experientes com clusters, e estamos preocupados que está demorando muito (mais de 2 meses). Ele fala sobre o tempo até a falha de hardware (várias CPUs / módulos de memória falhando) cada vez que eu o contato.

Estou procurando algum conselho - é normal que várias CPUs e módulos de memória falhem em novos clusters? Ou é provável que tenha ocorrido erro humano?

    
por draguignan 13.07.2016 / 10:35

1 resposta

0

As CPUs quase nunca falham e a RAM falha bastante raramente. Se houver problemas com esses dois tipos específicos de hardware, o problema real é provavelmente que o construtor encontrou problemas imprevistos de compatibilidade.

Com muita memória (~ 192 módulos de tamanho desconhecido), é concebível que os erros de inversão de bits possam começar a criar suas cabeças com frequência alarmante. Espero que a RAM seja ECC, caso contrário, esta pode ser a fonte de muitos atrasos e falsos inícios.

    
por 25.07.2016 / 16:20