Reinicializações aleatórias causadas por uma exceção de verificação de máquina

6

Meu laptop é reiniciado aleatoriamente duas vezes ao dia. Ele mostra o seguinte log de erro antes da reinicialização.

.

Infelizmente, não tenho idéia de como decodificar a Exceção de Verificação de Máquina (MCE). mcelog --ascii não produz nada. Existe uma chance de que isso seja um problema de software?

O laptop é o Samsung NP900X3C com o processador Intel Core i5-3317U. Eu uso o Arch Linux com o kernel 3.13.5.

    
por fhucho 28.02.2014 / 12:58

4 respostas

6

Este problema tem a ver com uma falha de hardware, especificamente parece que a memória no banco 4, (DIMM 4 - suponho), está com defeito. A instalação da MCE (Machine Check Events) não é amplamente conhecida, mas eu já respondi a várias perguntas no site relacionadas a ela.

Além disso, você pode escrever suas próprias regras para o MCE neste livro de perguntas e respostas intitulado: Escrevendo gatilhos para o mcelog .

Além disso, se você passar pelo FAQ do MCE, o item # 6 mostra como usar o comando mcelog --ascii , intitulado: Como faço" executar mcelog --ascii "? . Basicamente, você deve salvar a mensagem de pânico em um arquivo de texto e depois executá-la através do comando mcelog da seguinte forma:

$ mcelog --ascii < file

Como posso consertar isso?

Opção # 1

Você tem basicamente 3 opções. Eu não vou descrever o primeiro, que é substituir o DIMM de RAM no slot 4.

Opção # 2

A segunda opção seria diagnosticar ainda mais o problema e confirmar que ele é realmente um DIMM defeituoso. Você pode usar memtest86 + para fazer isso. Além de realizar este teste, eu também levaria um minuto e reposicionaria o DIMMS para ter certeza de que eles estão fazendo um bom contato dentro dos slots da placa-mãe, se você se sentir confortável fazendo isso. É realmente muito trivial fazer isso.

Opção # 3

A terceira opção seria tentar colocar o local na lista negra, supondo que ele esteja isolado para um par específico de endereços dentro do DIMM. Acredite ou não, você pode realmente colocar na lista negra endereços de memória específicos. Também expliquei como fazer isso neste site, intitulado: Como enegrecer um setor ruim de RAM correto de acordo com a indicação de erro MemTest86 +? .

    
por 05.03.2014 / 03:33
1

Atualize o todos software. Se você tem algum software não oficial instalado (drivers de vídeo, ...) se livre deles por enquanto. Então tente novamente. Especialmente os drivers da nVidia são famosos por causar instabilidade, e os drivers do Windows usados embora ndiswrapper funcionem principalmente por engano.

falhas aleatórios (se a potência não é o mesmo de cada vez) são geralmente resultam de sobreaquecimento algures (ventiladores maus, pasta de calor seco, o fluxo de ar obstruído por coelhos pó / das vias respiratórias obstruídas). Eu também vi isso quando a RAM ou outros componentes não estão firmemente assentados.

Poderia ser devido ao mau RAM, execute memtest (que pode ser uma opção no menu de inicialização). Sim, isso leva um longo tempo muito . Outros problemas de hardware são possibilidades mais remotas.

    
por 03.03.2014 / 04:03
1

O erro MCE (b200000000100402) é um "MCA: Erro interno não classificado: 402". Então não tem a ver com memória, ou pelo menos isso não pode ser dito. É relacionado ao hardware, como você pode ver no erro decodificado abaixo:

The kernel log indicates that hardware errors were detected.
System log may have more information.
The last 20 mcelog lines of system log are:
==========================================
Mar 28 01:59:27 900x3c mcelog: Hardware event. This is not a software error.
Mar 28 01:59:27 900x3c mcelog: MCE 0
Mar 28 01:59:27 900x3c mcelog: CPU 0 BANK 4
Mar 28 01:59:27 900x3c mcelog: TIME 1395968361 Fri Mar 28 01:59:21 2014
Mar 28 01:59:27 900x3c mcelog: MCG status:
Mar 28 01:59:27 900x3c mcelog: MCi status:
Mar 28 01:59:27 900x3c mcelog: Uncorrected error
Mar 28 01:59:27 900x3c mcelog: Error enabled
Mar 28 01:59:27 900x3c mcelog: Processor context corrupt
Mar 28 01:59:27 900x3c mcelog: MCA: Internal unclassified error: 402
Mar 28 01:59:27 900x3c mcelog: STATUS b200000000100402 MCGSTATUS 0
Mar 28 01:59:27 900x3c mcelog: MCGCAP c07 APICID 0 SOCKETID 0
Mar 28 01:59:27 900x3c mcelog: CPUID Vendor Intel Family 6 Model 58

Além disso, no Kernel Bug 839511 , o mesmo erro é acionado. Foi resolvido mudando a placa-mãe e a CPU.

    
por 30.03.2014 / 21:49
0

Este parece ser um problema interno da CPU. Acionando algum erro de soma de verificação em 1 ou mais núcleos. Meu laptop (Samsung NP900X3C) faz o mesmo de tempos em tempos.

O motivo pelo qual o Windows não trava e o linux, pode ter a ver com o fato de que o Windows carrega automaticamente o microcódigo mais recente da Intel na CPU durante a inicialização. Microcódigo é o "firmware" rodando dentro da CPU (sim, isso existe), e a Intel de tempos em tempos corrige isso (correções de bugs) e libera um novo microcódigo. Isso deve realmente ser atualizado com uma atualização do BIOS pela Samsung, mas isso provavelmente não vai acontecer ......

Felizmente, é possível carregar o novo microcódigo Intel na CPU no momento da inicialização, que é o que o Windows faz, mas isso só vale até a próxima reinicialização.

Ainda mais felizmente, no Debian e no Ubuntu isso pode ser feito tão facilmente quanto:

sudo apt-get instala intel-microcode

Depois disso, o Linux carregará o mais novo microcódigo da Intel na CPU a cada inicialização. Por favor, tente e veja se seus problemas desaparecem. Eu fiz isso sozinho no meu laptop há alguns dias e não vi nenhum acidente desde.

    
por 03.07.2015 / 13:47