“A camada física QPI da Intel detectou uma reinicialização dentro da banda QPI, mas interrompeu a inicialização”

1

Eu tenho um servidor linux que registrou o seguinte erro mcelog:

Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 20
MISC 800000
TIME 1476167381 Tue Oct 11 06:29:41 2016
MCG status:
MCi status:
Corrected error
MCi_MISC register valid
MCA: BUS error: 0 0 Level-3 Generic Generic Other-transaction
Request-did-not-timeout
QPI:
Intel QPI physical layer detected a QPI in-band reset but aborted
initialization
STATUS 8800004000200e0f MCGSTATUS 0
MCGCAP 7000c16 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 63

Eu posso encontrar referência a esse erro nos documentos de programação do sistema Intel e monitorar código no github, mas nada explicando a causa, o efeito e as ações sugeridas. Eu li as últimas notas de atualização do microcódigo para ver se ele é mencionado, mas não consigo encontrar nada.

O erro pode ser um "tipo de radiação cósmica" único ou um "não evento" a ser ignorado, mas alguém pode elaborar com alguma orientação do nível do administrador do sistema do mundo real?

Obrigado

    
por Linker3000 12.10.2016 / 14:12

1 resposta

0

Eu assumo que é um par de processadores E5-2640v4 (o v # no final importa ).

Você precisa verificar a planilha de errata do processador (procure os documentos de "atualização de especificação" para seu processador específico), pois há várias erratas sobre problemas de QPI em muitos modelos de processadores ...

Ok: link não lista nenhuma errata que resultaria no comportamento do QPI. Você pode ter um defeito de hardware ou sofreu uma errata não listada (mais comum do que você imagina).

No entanto, Supermicro é uma porcaria absoluta em manter seu BIOS atualizado (eles ainda têm essa declaração ultrajante sobre nunca atualizar seu BIOS em suas páginas de suporte), então podemos seguramente assumir que ele terá componentes desatualizados do kit de firmware da plataforma, como atualizações de microcódigo e bytecode de configuração de plataforma.

Então, você ainda pode esperar que uma atualização de firmware ajude. Como esperado da Supermicro, até mesmo o BIOS mais recente para essa placa-mãe tem uma atualização de microcódigo muito antiga, abaixo da versão mínima recomendada para uso ao executar o Linux (você deseja pelo menos revisão 0x0b00001d, de 2016-06-06). Por favor, instale o pacote de atualização de microcódigo para sua distro (deve ser baseado na versão 20160714 ou posterior da Intel), que pode ajudar.

Como o suporte a supermicro geralmente é muito bom em resolver os problemas causados por sua piada de um ciclo de vida de gerenciamento de firmware de servidor / estação de trabalho. Relate o problema diretamente a eles e solicite um BIOS beta com firmware atualizado (microcódigo do processador, chipset, firmware ME / AMT / TPM e componentes de configuração da plataforma). No entanto, eles podem dizer ao RMA o quadro, se eles considerarem mais provável que seja um defeito de hardware.

    
por 13.10.2016 / 12:45

Tags