Recentemente, meu sistema tem sofrido com o que parecem ser numerosos defeitos de hardware. Mais criticamente, meu sistema aparentemente está superaquecendo (com carga média) e sumariamente desligado. Um fator que eu já descobri é que o ventilador traseiro não está girando. Parece apenas ser quebrado porque as leituras de tensão (com um voltímetro, não sensores) em seus pinos mostram 12V. Eu suspeito, no entanto, que o ventilador não é o meu único problema.
Como posso determinar a extensão do meu dano ao hardware usando acpi, sensores ou outras ferramentas? Estou recebendo inúmeras leituras ruins e não tenho certeza se elas correspondem a falhas de hardware, sensores inexistentes ou apenas software de medição mal configurado.
Sensores:
sensors
coretemp-isa-0000
Adapter: ISA adapter
ERROR: Can't get value of subfeature temp1_input: Can't read
Core 0: +0.0°C (high = +86.0°C, crit = +100.0°C) ALARM
coretemp-isa-0001
Adapter: ISA adapter
ERROR: Can't get value of subfeature temp1_input: Can't read
Core 1: +0.0°C (high = +86.0°C, crit = +100.0°C) ALARM
f71882fg-isa-0a00
Adapter: ISA adapter
+3.3V: +3.36 V
in1: +1.22 V (max = +2.04 V)
in2: +1.02 V
in3: +0.86 V
in4: +0.96 V
in5: +1.10 V
in6: +0.90 V
3VSB: +3.36 V
Vbat: +3.04 V
fan1: 868 RPM
fan2: 0 RPM ALARM
fan3: 0 RPM ALARM
fan4: 0 RPM ALARM
temp1: +89.0°C (high = +85.0°C, hyst = +81.0°C) ALARM
(crit = +100.0°C, hyst = +96.0°C) sensor = transistor
temp2: +33.0°C (high = +85.0°C, hyst = +81.0°C)
(crit = +100.0°C, hyst = +96.0°C) sensor = transistor
temp3: FAULT (high = +70.0°C, hyst = +68.0°C)
(crit = +85.0°C, hyst = +83.0°C) sensor = transistor
e sem ajuda:
acpi -V
No support for device type: power_supply
No support for device type: power_supply
Cooling 0: Processor 0 of 0
Cooling 1: Processor 0 of 7
Usando o widget de plasma do KDE, posso ver que temp1
flutua entre 89-92, enquanto temp2
lê uma constante 33 (isto é, está quebrada). Eu nunca prestei muita atenção nisso até meu computador começar a ficar anormalmente lento sob cargas médias e sumariamente morrer. Então eu vi que dmesg
estava cheio de
[ 1561.568839] CPU1: Core temperature above threshold, cpu clock throttled (total events = 1)
[ 1561.568857] CPU0: Core temperature above threshold, cpu clock throttled (total events = 1)
[ 1800.040047] Machine check events logged
Eu não tenho muita experiência em decifrar leituras de temperatura ou geralmente farejar hardware ruim - poderia todo esse fenômeno ser realmente explicado por um fã morto? Eu tirei um dos painéis de caixa (o que parece oferecer tanto ventilação extra quanto a pequena ventoinha de 4 ") e os ventiladores CPU, PSU e front-of-the-box estão todos funcionando em ciclo de serviço completo, mas não parece fazer nenhuma diferença, ainda estou recebendo leituras de alta temperatura e desligamentos frequentes. O que posso fazer?