Como atualizar o Slurm?

1

Fui solicitado a atualizar nossa instalação do Slurm Workload Manager. Eu tenho um slurm 2.3.4 em um cluster wheezy do Debian 7.0 (1 mestre + 8 nós). Eu não o instalei, então estou um pouco confuso sobre como fazer isso e como proceder sem destruir nada. (Eu não posso realmente fazer backup de dados, pois há muitos Terabytes de dados para pensar em copiá-los em qualquer outro lugar.)

Eu estava pensando em atualizar pelo menos para Jessie (Debian 8) mas e o Slurm? Eu li atentamente a seção de atualização ( link ) do documento, lendo que a atualização deve ser feita de forma incremental e sem saltar de 2.3.4 a 17, por exemplo.

Stil não está claro para mim precisamente como fazer isso. Como você procederia se pedisse para atualizar um cluster sobre o qual você não sabe nada? O que você verificaria? Qual versão de o.s. e slurm você escolheria? O que você faria backup? E como você procede?

Qualquer informação é ouro! Obrigado

    
por Sasha Grievus 03.10.2017 / 15:31

1 resposta

2

Eu fiz upgrades semelhantes com o Torque / Moab, mas não com o Slurm, mas posso oferecer alguns conselhos. Se você puder obter um sistema de teste ou uma VM para verificar se as coisas funcionarão após a atualização, isso seria o ideal. Caso contrário, esta é a parte complicada que o documento menciona:

Slurm permits upgrades between any two versions whose major release numbers differ by two or less (e.g. 15.08.x or 16.05.x to 17.02.x) without loss of jobs or other state information. State information from older versions will not be recognized and will be discarded, resulting in loss of all running and pending jobs.

Isso significa que, se você tiver trabalhos pendentes e pendentes após a atualização, eles não estarão lá. Assim, os usuários precisam enviar trabalhos novamente, o que significa que você perderá prioridade e outros metadados relacionados ao trabalho e informações de estado.

Com o Torque / Moab, havia uma pasta de trabalho que geralmente pode ser copiada e migrada para a nova versão. Existe alguma coisa semelhante?

Basicamente, se você não puder ter uma máquina de teste, nesse caso precisará agendar um tempo de inatividade e informar aos usuários que todos os trabalhos atuais na fila serão perdidos, o que significa que eles precisam reenviar tudo. Se isso não for uma opção, você precisará encontrar uma maneira de migrar as tarefas para o sistema atualizado.

    
por 03.10.2017 / 16:43

Tags