O servidor CentOS falhou ao montar / sysroot: bad initramfs?

0

Nosso host VPS SSD baseado no KVM sofreu falhas nos últimos meses: recebi apenas duas capturas de tela dos meus colegas e nenhum journalctl log. Nós temos dois outros hosts, mas a partir do provedor VPS baseado no VMWare: esses sempre rodam bem, os três hosts rodando no KVM sempre deram problemas, quebrando até 5 vezes por mês.

Minha equipe restaurou a máquina com falha apenas colocando um instantâneo de outra máquina com a mesma imagem do CentOS; eles usaram esse procedimento outras vezes e é claro que (?) outras falhas poderiam ocorrer novamente no futuro.

Como você pode ver na primeira tela, foi detectada uma corrupção de dados na memória: recebi essas duas capturas de tela e a tarefa para replicar o erro para entender o que aconteceu. Sem registros, pode ser um grande desafio.

Eu sei que é difícil entender sem registros, mas colecionei algumas informações:

  1. o acidente ocorreu em intervalos de tempo não regulares;
  2. os registros mostram um timestamp de três segundos e meio após a inicialização;
  3. essa fase de inicialização pode envolver o initramfs.

Estou tomando meu melhor palpite aqui: talvez alguém tenha instalado algo e reiniciado a máquina, e talvez update-initramfs tenha sido ruim e corrompido alguma coisa. Logs anteriores foram perdidos; o provedor VPS nos concedeu o hardware está funcionando bem e nenhuma instância de QEMU ou KVM caiu ... então, não faço ideia do que causou a corrupção do sistema de arquivos; é inútil executar xfs_repair se outra falha ocorrer, pois todos os hosts compartilham o mesmo ISO do CentOS.

Eu sei que isso pode parecer uma questão pertencente ao ServerFault, mas minha pergunta é mais relacionada ao Linux: em geral, e não relacionada ao meu problema específico, o que poderia comprometer o initramfs?

Aqui estão as capturas de tela:

    
por elmazzun 16.02.2018 / 15:30

0 respostas