É este “Erro de Hardware” ao usar o Matlab no Fedora realmente um problema de hardware ou poderia ser um software?

1

Eu sempre encontrei o seguinte problema ao usar o Matlab 2012 no Fedora 20, durante ou após o cálculo do fft ou números de plotagem.

O seguinte é a massagem de erros:

[  635.157606] mce: [Hardware Error]: CPU 4: Machine Check Exception: 4 Bank 0: b650200000000135 
[  635.157606] mce: [Hardware Error]: TSC 22cd709f356 ADDR 5989fdd80
[  635.157606] mce: [Hardware Error]: PROCESSOR 2:100fa0 TIME 1462430327 SOCKET 0 APIC 4 microcode 10000dc
[  635.157606] [Hardware Error]: MC0 Error: Data/Tag DRD error.
[  635.157606] [Hardware Error]: Error Status: System Fatal error.
[  635.157606] [Hardware Error]: CPU:4 (10:a:0) MC0_STATUS[-|UE|-|PCC|AddrV|UECC]: 0xb650200000000135
[  635.157606] [Hardware Error]:MC0_ADDR: 0x00000005989fdd80 
[  635.157606] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[  635.157606] mce: [Hardware Error]: Machine check: Invalid
[  635.157606] Kernel panic - not syncing: Fatal machine check on current CPU
[  635.157606] Kernel Offset: 0x0 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffff9fffffff)
[  635.157606] drm_kms_helper: panic occurred, switching back to text console

É devido a software (ou seja, Matlab) ou hardware (ou seja, CPU, minha CPU é AMD X6 1055T)? Como posso resolver este problema?

    
por harfan 05.05.2016 / 14:02

2 respostas

1

Este é um erro de hardware. Especificamente, é um erro de memória ECC que foi detectado, mas não corrigido. Como você sabe? Canalize a saída acima através de mcelog --ascii e você terá:

Hardware event. This is not a software error.
CPU 4 0 data cache TSC 22cd709f356 
ADDR 5989fdd80 
TIME 1462430327 Thu May  5 02:38:47 2016
  Data cache ECC error (syndrome a0)
       bit45 = uncorrected ecc error
       bit57 = processor context corrupt
       bit61 = error uncorrected
  memory/cache error 'data read mem transaction, data transaction, level 1'
STATUS b650200000000135 MCGSTATUS 4
CPUID Vendor AMD Family 16 Model 10
SOCKET 0 APIC 4 microcode 10000dc

(Note que com mensagens kernels mais antigas que não incluem a linha PROCESSOR , você precisa saber e especificar o tipo de CPU usado no sistema atual. Mas com essa linha, executar a saída no meu sistema deve dar o mesmo resultado que você obteria localmente.

    
por 05.05.2016 / 14:12
0

Parece-me um erro de hardware, CPU ou memória. Se você tem a possibilidade de usar outra CPU ou trocar memórias em seu PC, ou tentar o mesmo em outra máquina / CPU, você pode descartar o que hw está falhando. Além disso, você deve atualizar os firmwares do BIOS e outro hardware, pode ajudar. Às vezes, o microcódigo da CPU é atualizado com uma atualização do BIOS, que pode eliminar erros de memória / CPU.

    
por 05.05.2016 / 14:13