O servidor congela sem o kernel panic

4

Estamos executando um nó KVM que está travando irregularmente mostrando um comportamento muito estranho. O interessante é que já tivemos esse problema com outro nó que travou a cada 1-2 semanas. Como não conseguimos encontrar um problema de hardware, começamos a migrar as VMs para um novo nó. Cerca de uma semana depois de termos migrado 50% das VMs, o novo nó travou enquanto o "antigo" estava funcionando bem desde então (tempo de atividade de 3 semanas, não temos visto um tempo de atividade tão bom por meses).

Quando um nó falha, às vezes vemos essas coisas estranhas no Supermicro IPMI:

Tambémvimos:

  • "Sem sinal", como se o servidor estivesse desligado (claro que não, e também nunca foi mostrado como desligado na página principal do IPMI)
  • A tela de login normal ou outra saída normal do servidor, mas congelada

O que nós nunca vimos foi um kernel panic ou pelo menos algumas mensagens nos logs antes do crash, há um completo silêncio até que de repente as luzes se apagam.

Como o problema "mudou" de um servidor para outro (uma máquina nova em folha), restam apenas algumas opções na minha opinião:

  • Uma VM específica está causando o problema
  • Bug do kernel
  • Problema de hardware relacionado à nossa configuração

Mais informações sobre as máquinas:

  • CentOS 7 com o kernel mais recente (3.10.0-514.2.2.el7.x86_64)
  • Case Supermicro com fontes de alimentação redundantes
  • Supermicro X10DRi / X10DRWi com a versão mais recente do BIOS
  • Intel Xeon E5-2630 v3 / v4
  • RAM ECC DDR4 de 512 GB (RAM do servidor Samsung)
  • 145 VMs em execução (RAM e CPU longe de estar saturado, também graças ao KSM)
  • Software RAID-10 com 8/16 SSDs

Alguém viu esse comportamento ou pode dizer algo sobre as estranhas "mensagens" no console? Eu nunca vi algo assim e nem sei como devo descrever isso para uma pesquisa no Google. No momento não temos uma boa ideia do que deve ser feito a seguir, pois pode ser tudo.

Obrigado antecipadamente!

    
por smartenbergen 23.12.2016 / 16:10

2 respostas

0

Uma breve atualização sobre isso: Após a atualização para o kernel LTS mais novo (4.4.39), o servidor está estável. Uptime 19 dias agora, então eu acho que nós conseguimos. Embora não saibamos realmente a causa raiz, achamos que o kernel do CentOS 7 (3.10) pode ser muito antigo para alguns hardwares modernos. Como não podemos fornecer uma mensagem de erro útil (como um kernel panic no melhor dos casos), decidimos não reportar isso aos desenvolvedores do CentOS.

    
por 13.01.2017 / 14:31
2

Isso pode ser um bug da CPU. A Intel publicou uma errata sobre esse problema e também fornece uma atualização de microcódigo para as CPUs E5 v3 / v4 (datacode 20170707). O CentOS 7.4 já tem uma versão mais recente do microcódigo 0xb000021 (no CentOS 7.3 era 0xb00001e). Pode ajudar a trocar o microcódigo ou atualizar para o 7.4. Eu também tive um monte de problemas com este sistema congela. Troquei a placa mãe (X10DRi), RAM, CPU e powersupply sem sucesso. Eu não posso dizer com certeza se esta é a solução, porque eu não tenho uptime suficiente desde que eu atualizei o microcódigo. O Supermicro ainda não fornece um BIOS atualizado com o microcódigo atual da Intel. Você pode obter um pré-lançamento não oficial de seu distribuidor para o X10DRI.

    
por 28.09.2017 / 09:59