Centos 6.5 travando com pânico do kernel

3

Eu criei recentemente um pequeno cluster para executar o Solr. O cluster consiste em 12 Supermicro Blades executando o E3-1270V2 com 32GB de RAM.

11 desses servidores estão funcionando bem. Um deles bate em mim constantemente. Quando o servidor trava, normalmente produz alguma saída no terminal. A primeira vez foi:

double fault: 0000 [#1]

Hmm ... isso é muito enigmático. Desde então, recriou o problema e algumas mensagens mais interessantes.

Aquiestáoutramensagemigualmenteenigmática...

Outra dificuldade interessante é que posso ativar o sysbench e maximizar a CPU sem que ela falhe, mas só quando inicio o Java é que ele cai de maneira confiável.

Eu tentei desativar os seguintes recursos da CPU:

  • Modo Turbo
  • Estados C
  • estados
  • XHCI

Isso é apenas uma CPU ruim?

Muito obrigado!

    
por Zorlack 10.03.2014 / 15:11

1 resposta

1

Eu tive esse tipo de experiência com CPUs Nehalem e Westmere em servidores HP ProLiant. No meu caso, o servidor seria POST corretamente e reconheceria toda a RAM, mas geraria exceções de verificação de máquina vinculadas a um slot específico após a aplicação da carga ser aplicada.

Se ainda não o fez, tente isolar o problema em um determinado slot DIMM ou DIMM para ver se ele segue ao movimento do módulo. Se o erro persistir e estiver vinculado a um slot específico ... sugiro examinar o soquete da CPU. Verifique o soquete da placa-mãe da (s) CPU (s) e anote os pinos tortos.

Este é o equipamento da SuperMicro, então não conheço os termos da garantia. Mas esperamos que isso seja apenas RAM, já que é uma substituição mais fácil do que uma placa de sistema.

    
por 10.03.2014 / 16:46