“mce: [Erro de hardware]: eventos de verificação de máquina registrados” aparece no syslog. O que devo fazer?

18

Instalei a versão mais recente do OSSEC (2.8.1) e também ativei as notificações por e-mail. E estou recebendo um monte desses tipos de notificações dizendo que há um erro de hardware e algo sobre o mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Então o que exatamente isso significa? Mce de quê? E esse aparente erro de hardware é algo com o qual eu deveria me preocupar?

Informações do sistema operacional:

Description:    Ubuntu 14.10
Release:    14.10
    
por Great Uncle Bulgaria 04.04.2015 / 21:37

1 resposta

21

Exceção de verificação de máquina :

  

Uma Exceção de verificação de computador (MCE) é um tipo de hardware de computador   erro que ocorre quando a unidade central de processamento de um computador detecta   problema de hardware.

Seu computador sofreu um erro de hardware e o kernel registrou um evento em um buffer. Você pode usar mcelog para registrar e visualizar os eventos de verificação da máquina. De mcelog manpage :

  

As CPUs X86 relatam erros detectados pela CPU como eventos de verificação da máquina   (MCEs). Estes podem ser dados corrompidos nos caches da CPU, em   memória principal por um controlador de memória integrado, erros de transferência de dados   no barramento frontal ou na interconexão da CPU ou outros erros internos.   As causas possíveis podem ser radiação cósmica, fontes de energia instáveis,   problemas de resfriamento, hardware quebrado, sistemas em execução fora de   especificação, ou má sorte.

     

A maioria dos erros pode ser corrigida pela CPU pela correção interna de erros   mecanismos. Erros não corrigidos causam exceções de verificação de   pode matar processos ou entrar em pânico na máquina. Um pequeno número de corrigido   erros geralmente não são motivo de preocupação, mas um grande número pode   indicar falhas futuras.

     

Quando um erro corrigido ou recuperado acontece, o kernel x86 grava um   registro descrevendo o MCE em um buffer de anel interno disponível   através do dispositivo / dev / mcelog. mcelog recupera erros de   / dev / mcelog, descodifica-os para um formato legível por humanos e imprime-os   na saída padrão ou, opcionalmente, no log do sistema.

Se você não percebeu qualquer falha, provavelmente o erro foi corrigido com sucesso. Ainda assim, eu aconselho você a instalar o mcelog para acompanhar esses eventos:

sudo apt-get install mcelog

Os eventos serão registrados em /var/log/mcelog . Você também pode executar:

sudo mcelog --client

para consultar o daemon mcelog em busca de erros.

    
por Eric Carvalho 11.04.2015 / 23:22