xfs_repair está preso - seguro para matá-lo?

1

Centos 6.9

Então, eu tive dois volumes de 40 TB falhando, pelo menos nominalmente, depois de reconfigurar o ataque que eles fazem parte. Os volumes do raid estão ok, mas ao montá-los, um reportou "não pode ler superbloco", o outro "tipo fs errado, má opção, superbloco ruim".

Eu então cometi o erro de executar o xfs_repair em ambos ao mesmo tempo (eles estão no mesmo servidor de arquivos), o que eu agora entendo que estava pedindo problemas de memória. O servidor de arquivos tem 64 GB de RAM com metade da troca. Então o servidor ficou sem memória e um dos processos xfs_repair foi morto. Agora, o segundo ainda está em execução, mas está preso há muito tempo sem progresso e 0% de uso da CPU.

Eu acho que tenho que matar o processo xfs_repair preso, mas isso me deixa nervoso. Há algo mais que eu possa tentar?

Quanto ao outro volume que estava sendo reparado e cujo processo foi cancelado, tentei montá-lo e ele está montado corretamente agora.

Obrigado por qualquer conselho.

    
por Michael Stauffer 10.01.2018 / 05:28

1 resposta

1

Geralmente, não é seguro eliminar um processo que faz manipulação de baixo nível. No seu caso, você tem uma rede de segurança, já que a outra unidade está funcionando.

Supondo que esses dois volumes estejam configurados como RAID 1, você pode desmontar o que funciona (apenas para segurança extra), matar o processo xfs_repair e avaliar o estado do que foi interrompido, depois restaurar o bom ( desmontado anteriormente) se não estiver funcionando.

Dado que o processo está a 0% de uso, provavelmente está em deadlock, o que significa que deve ser eliminado e esse seria o caso mesmo se fosse seguro ou não. Um desligamento ou reinicialização implicitamente o mataria de qualquer maneira, então eu sugiro que você vá em frente e faça você mesmo, então tenha mais controle sobre o que está acontecendo. Se alguma coisa ruim acontece, provavelmente já aconteceu ou foi inevitável.

    
por 10.01.2018 / 05:59