Por que configurar nós do cluster para reinicializar quando falta de memória?

2

Eu tenho acesso a um cluster HPC de pesquisa que é configurado para que, se seu trabalho tentar usar mais memória do que o nó tiver disponível, o nó falhe e seja reinicializado automaticamente. Isto parece ser prática comum, e. veja link

Por que ela seria configurada assim, em vez de ser configurada apenas para finalizar o (s) processo (s) que exigem muita memória? Em ambos os casos, você perde o trabalho, mas o último parece ser melhor para o cluster como um todo, já que o nó é reutilizável mais rapidamente. Ou não é possível para o sistema operacional garantir a recuperação da memória nesse caso?

    
por lost 16.01.2015 / 15:24

2 respostas

3

A reinicialização do nó garante que o nó esteja funcionando corretamente antes da próxima tarefa ser atribuída a ele. Além disso, quando você executa um nó sem memória e inicia a troca, ele fica lento e pode não responder. Nesse caso, eles podem estar usando algo como o IPMI para ligar e desligar o nó.

    
por 16.01.2015 / 17:31
2

Com base no ambiente que você está descrevendo e em algumas informações que podem ser encontradas explorando o link fornecido, parece que o cluster que você está usando é provisionado como um sistema sem disco ou sem estado, o que significa que todo o sistema operacional é carregado na memória a partir de uma imagem do sistema operacional armazenada remotamente.

Garantir que os trabalhos paralelos sejam mortos corretamente em vários nós pode ser um processo complicado e garantir que a eliminação e a limpeza sejam feitas corretamente podem levar mais tempo do que simplesmente reinicializar um nó. Colocar um nó em um estado limpo antes de iniciar um trabalho é necessário para garantir o melhor desempenho do cluster.

Os motivos exatos para configurar um nó dessa maneira dependeriam dos sistemas de provisionamento e gerenciamento de recursos também empregados no cluster

    
por 07.07.2015 / 19:51

Tags