Nosso host VPS SSD baseado no KVM sofreu falhas nos últimos meses: recebi apenas duas capturas de tela dos meus colegas e nenhum journalctl
log. Nós temos dois outros hosts, mas a partir do provedor VPS baseado no VMWare: esses sempre rodam bem, os três hosts rodando no KVM sempre deram problemas, quebrando até 5 vezes por mês.
Minha equipe restaurou a máquina com falha apenas colocando um instantâneo de outra máquina com a mesma imagem do CentOS; eles usaram esse procedimento outras vezes e é claro que (?) outras falhas poderiam ocorrer novamente no futuro.
Como você pode ver na primeira tela, foi detectada uma corrupção de dados na memória: recebi essas duas capturas de tela e a tarefa para replicar o erro para entender o que aconteceu. Sem registros, pode ser um grande desafio.
Eu sei que é difícil entender sem registros, mas colecionei algumas informações:
Estou tomando meu melhor palpite aqui: talvez alguém tenha instalado algo e reiniciado a máquina, e talvez update-initramfs
tenha sido ruim e corrompido alguma coisa. Logs anteriores foram perdidos; o provedor VPS nos concedeu o hardware está funcionando bem e nenhuma instância de QEMU ou KVM caiu ... então, não faço ideia do que causou a corrupção do sistema de arquivos; é inútil executar xfs_repair
se outra falha ocorrer, pois todos os hosts compartilham o mesmo ISO do CentOS.
Eu sei que isso pode parecer uma questão pertencente ao ServerFault, mas minha pergunta é mais relacionada ao Linux: em geral, e não relacionada ao meu problema específico, o que poderia comprometer o initramfs?
Aqui estão as capturas de tela: