Estou tendo problemas para depurar uma falha do sistema que estou tendo.
Sem aviso, meus monitores ficam em branco e o sistema não responde a nenhuma entrada. O computador também não pode ser comunicado pela rede. Tanto o ping quanto o ssh não funcionam. No entanto, o computador não está "desligado". Seus fãs ainda estão zumbindo e suas luzes ainda estão acesas. Eu vi esse acidente acontecer em qualquer lugar de algumas horas após a inicialização, para alguns dias. Eu pensei que o problema desapareceu após 6 dias consecutivos de tempo de atividade, mas depois ele caiu novamente. Quando isso acontece eu tenho que pressionar e segurar o botão de energia para forçar uma reinicialização difícil. Em seguida, inicializa bem e parece que nada está errado (todos os sensores de temperatura também ficam bem). Além disso, o problema não parece depender da carga da CPU / GPU. Eu sou capaz de executar processos intensos da CPU sem qualquer problema. Ele caiu em alguns trabalhos durante a noite, mas também caiu nas noites em que o sistema estava ocioso.
Em resumo:
NVIDIA Corporation GT200b [GeForce GTX 285]
Saída do lspci
00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 2 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1c.4 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1c.7 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 8 (rev b5)
00:1d.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation P67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
02:00.0 VGA compatible controller: NVIDIA Corporation GT200b [GeForce GTX 285] (rev a1)
04:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
05:00.0 SATA controller: JMicron Technology Corp. JMB362 SATA Controller (rev 10)
06:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI Bridge (rev 01)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)
09:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9172 SATA 6Gb/s Controller (rev 11)
Eu configurei meu journalctl para ser persistente para que eu possa acessar os logs de inicializações anteriores. No entanto, olhando através dos logs, não consegui encontrar nada que pudesse apontar para um problema ou uma solução.
Quando vi pela primeira vez o problema, meu primeiro instinto foi a temperatura da CPU.
Eu configurei um serviço do sistema para registrar a saída de sensors
a cada 5 segundos.
As últimas linhas do que estão aqui: link
Observe que a última linha está cheia de caracteres nulos. Eu presumo que o sistema caiu no meio de escrever no arquivo.
As temperaturas parecem estar dentro de intervalos razoáveis. Um dos sensores CPUTIN: -60.0°C
tem um valor constante de -60, o que, suponho, significa que o sensor não está funcionando? O mesmo parece ser verdade para alguns dos meus fãs. Então, talvez haja uma coisa de temperatura acontecendo que eu não posso detectar?
Últimas linhas do syslog antes do último crash: link
Está mostrando alarmes do sensor, mas nada parece (para mim) ter um valor não normal.
O sistema é antigo, portanto, faz sentido que talvez um dos componentes de hardware esteja falhando. No entanto, estou em uma perda para descobrir qual deles é. A RAM foi recentemente atualizada (o acidente estava acontecendo antes da atualização), então eu duvido disso. Alguma idéia do que poderia ser / como eu poderia descobrir?