kernel panic Erro de hardware - qual hardware é responsável?

3

Estou tendo pânico no kernel a cada dois dias. abaixo está uma transcrição de uma foto do console. Como determino qual hardware é responsável pelo problema? (ou é software)

Servidor LTS do Ubuntu 12.04

[Hardware Error]: CPU:2   MC0_STATUS[-|UE|-|-|AddrV|UECC]: 0xb400200055000145
[Hardware Error]: MC0_ADDR: 0x0000000164fe77b0
[Hardware Error]: Data Cache Error: Data/Tag DWR error.
[Hardware Error]: cache level: L1, tx: DATA, mem-tx: DWR
[Hardware Error]: CPU:3 MC0_STATUS[-|UE|-|PCC|AddrV|CECC]: 0xb66b400000000135
[Hardware Error]: MC0_ADDR: 0x0000000164fe77b0
[Hardware Error]: Data Cache Error: Data/Tag DWD error.
[Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[Hardware Error]: CPU 3: Machine Check Exception: 4 Bank 0: b66b400000000135
[Hardware Error]: TSC bc02bd350de4 ADDR 164fe7bb0
[Hardware Error]: PROCESSOR 2:100f42 TIME 1378965147 SOCKET 0 APIC 3 microcode 10000c6
[Hardware Error]: CPU:3 MC0_STATUS[-|UE|-|PCC|AddrV|CECC]: 0xb66b400000000135
[Hardware Error]: MC0_ADDR: 0x0000000164fe77b0
[Hardware Error]: Data Cache Error: Data/Tag DWD error.
[Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[Hardware Error]: Machine Check: Invalid
Kernel panic - not syncing: Fatal machine check on current CPU
Shutting down cpus with NMI

Aqui estão alguns registros adicionais que encontrei:

kernel: [58495.948100] ------------[ cut here ]------------
kernel: [58495.948108] WARNING: at /build/buildd/linux-lts-quantal-3.5.0/net/sched/sch_generic.c:255 dev_watchdog+0x272/0x280()
kernel: [58495.948109] Hardware name: MS-7576
kernel: [58495.948110] NETDEV WATCHDOG: eth0 (r8169): transmit queue 0 timed out
kernel: [58495.948111] Modules linked in: nfsd nfs lockd fscache auth_rpcgss nfs_acl sunrpc xfs vesafb radeon ttm drm_kms_helper snd_hda_codec_hdmi snd_hda_codec_realtek snd_hda_intel drm snd_hda_codec wmi i2c_algo_bit snd_hwdep snd_pcm snd_timer snd soundcore snd_page_alloc lp shpchp r8169 sp5100_tco i2c_piix4 firewire_ohci parport firewire_core kvm_amd edac_core k10temp edac_mce_amd serio_raw kvm mac_hid microcode crc_itu_t raid10 raid456 async_pq async_xor xor async_memcpy async_raid6_recov raid6_pq async_tx raid1 raid0 multipath linear pata_atiixp
kernel: [58495.948136] Pid: 0, comm: swapper/3 Tainted: G   M         3.5.0-23-generic #35~precise1-Ubuntu
kernel: [58495.948137] Call Trace:
kernel: [58495.948138]  <IRQ>  [<ffffffff81052c9f>] warn_slowpath_common+0x7f/0xc0
kernel: [58495.948144]  [<ffffffff81052d96>] warn_slowpath_fmt+0x46/0x50
kernel: [58495.948146]  [<ffffffff815a05b2>] dev_watchdog+0x272/0x280
kernel: [58495.948149]  [<ffffffff8101be03>] ? native_sched_clock+0x13/0x80
kernel: [58495.948151]  [<ffffffff810702d0>] ? __queue_work+0x330/0x330
kernel: [58495.948153]  [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0
kernel: [58495.948154]  [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0
kernel: [58495.948156]  [<ffffffff81062ce6>] call_timer_fn+0x46/0x160
kernel: [58495.948158]  [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0
kernel: [58495.948159]  [<ffffffff81064632>] run_timer_softirq+0x132/0x2a0
kernel: [58495.948162]  [<ffffffff810a4105>] ? ktime_get+0x65/0xe0
kernel: [58495.948164]  [<ffffffff8105ba88>] __do_softirq+0xa8/0x210
kernel: [58495.948166]  [<ffffffff810ab264>] ? tick_program_event+0x24/0x30
kernel: [58495.948168]  [<ffffffff816a841c>] call_softirq+0x1c/0x30
kernel: [58495.948170]  [<ffffffff81016245>] do_softirq+0x65/0xa0
kernel: [58495.948172]  [<ffffffff8105be6e>] irq_exit+0x8e/0xb0
kernel: [58495.948174]  [<ffffffff816a8d5e>] smp_apic_timer_interrupt+0x6e/0x99
kernel: [58495.948176]  [<ffffffff816a7aca>] apic_timer_interrupt+0x6a/0x70
kernel: [58495.948177]  <EOI>  [<ffffffff8103ff56>] ? native_safe_halt+0x6/0x10
kernel: [58495.948180]  [<ffffffff8101c993>] default_idle+0x53/0x1f0
kernel: [58495.948182]  [<ffffffff8101d8a9>] cpu_idle+0xd9/0x120
kernel: [58495.948184]  [<ffffffff8167b237>] start_secondary+0xc3/0xc5
kernel: [58495.948185] ---[ end trace ef52dc6dad6ceea1 ]---    

# dmidecode -t 1 -t 3 -t 4 | egrep '(Manufacturer|Product|Serial|Socket|Version)'
Manufacturer: MICRO-STAR INTERNATIONAL CO.,LTD
Product Name: MS-7576
Version: 1.0
Serial Number: To Be Filled By O.E.M.
Manufacturer: MICRO-STAR INTERNATIONAL CO.,LTD
Version: 1.0
Serial Number: To Be Filled By O.E.M.
Socket Designation: CPU1
Manufacturer: AMD
Version: AMD Phenom(tm) II X4 B50 Processor
Serial Number: To Be Filled By O.E.M.
    
por MERM 12.09.2013 / 15:21

4 respostas

2

Sim, isso é um problema de hardware, principalmente por causa da saída do buffer de anel que diz: [Hardware Error] .

Eu suspeito que a placa de sistema, o soquete da CPU ou a CPU ...

Você tem algum detalhe sobre o hardware? O que a seguinte string reporta?

dmidecode -t 1 -t 3 -t 4 | egrep '(Manufacturer|Product|Serial|Socket|Version)'
    
por 12.09.2013 / 15:56
1

Parece que você está tendo erros de RAM. Você pode verificar isso executando memtest86.

Além disso, se você tiver o pacote mcelog instalado, verifique / var / log / mcelog para mais informações.

Eu recomendaria mudar para uma placa-mãe de classe de servidor que possa manipular a RAM ECC.

    
por 12.09.2013 / 17:07
0

Acabei de encontrar esse erro em um Dell XPS 420 Core2 Quad Q6600

Esta máquina teve alguns problemas respiratórios no passado dos proprietários anteriores e estava extremamente suja por dentro (fumantes) e aqueceria até o ponto de reinicializar aleatoriamente. Não tenho certeza de quanto tempo isso aconteceu.

Eu entrei na BIOS e desativei 2 núcleos na CPU e tudo parece estar funcionando bem agora - parece que a CPU superaqueceu o suficiente para realmente queimar 2 (ou 1 como só posso desativar 2 de cada vez) .

A máquina funciona bem agora como um dual core.

    
por 25.08.2016 / 15:24
0

Eu vejo uma Exceção de verificação de máquina . Isso significa que a CPU detectou um problema.

O MCE pode ser tão fácil quanto ler dados do cache, ver um erro de ECC e tentar novamente. Esses tipos de erros acontecem de vez em quando. (É por isso que a CPU tenta novamente por um número limitado de vezes).

No seu caso, também vemos:

Data Cache Error: Data/Tag DWR error.
cache level: L1, tx: DATA, mem-tx: DWR

Isso é um erro com o cache de primeiro nível (que está ao lado de um núcleo da CPU e no mesmo dado). Não é um erro com a memória principal.

O resto de você transscript mostra vários erros, alguns do mesmo tipo, mas nem sempre com o mesmo núcleo. Neste ponto eu começaria a me preocupar que a CPU está falhando. A primeira coisa a verificar é se a CPU não está superaquecendo.

How do I determine what hardware is responsible for the problem? (or is it software)

Os erros de MCE são frequentemente de hardware. O que parece coincidir com os erros que você teve.


Se você tem uma CPU extra, tente essa.

Se não, verifique se o sistema está adequadamente resfriado e monitore a temperatura ao longo do tempo.

Se você ainda não o fez, instale mcelog e prepare-se para este artigo da wikipedia .

    
por 25.08.2016 / 15:54