O congelamento rápido impede que o botão de reinicialização física funcione

6

Eu tenho um PC reaproveitado sendo executado como um servidor. Foi montado no início de 2014 e contém um processador Intel Core i7-4770 em uma Gigabyte Z87-HD3. Funcionou de forma bastante confiável até o início de 2017, quando começou a congelar intermitentemente (a cada poucas semanas ou meses). Nenhum registro do Kernel, nem mesmo os dados de falha do repositório de páginas ou o netconsole produziram algo significativo. A tela física está em branco, a rede não responde, as métricas com granularidade de 10s não mostram correlação para carregar na CPU, na RAM ou no disco. Todos os LEDs e unidades ainda estão funcionando, mas obviamente não há mais IO. A RAM foi testada e é verificada boa, sem espionamentos espúrios ou qualquer coisa que indique um problema de hardware intermitente. Apenas congela duramente.

Agora, para a parte muito interessante: Quando o sistema entra nesse estado, o botão de reset físico para de funcionar completamente. Depois que eu pressiono, nada acontece. É definitivamente trabalhando fisicamente, pois funciona 100% quando o sistema não está nesse estado. Eu verifiquei voltagens da fonte de alimentação com um multímetro e eles estão bem. Eu ainda posso redefinir o servidor pressionando o botão de energia por 5s e ele inicializa bem depois disso.

Então, estou praticamente perdido com o que acontece aqui e qual peça de hardware é a culpa. Eu tenho analisadores lógicos e eu poderia ter acesso a escopos USB, mas nada que amostras acima de 100MSPS, então eu não posso sondar os ônibus reais. Eu ficaria muito grato por qualquer insight do que poderia estar acontecendo.

    
por Lorenz 15.12.2017 / 06:52

2 respostas

1

Então, depois de muita troca estratégica (mainboard, PSUs, CPU) eu tenho uma confirmação diferencial (o sistema de teste experimenta o problema, o original não funciona mais) na CPU sendo ruim. Resultado muito inesperado, já que nenhum MCE foi demitido, geralmente você obtém MCEs antes de travamentos difíceis.

Como este fórum infelizmente não tem um conector Trace Hub / JTAG e a depuração USB3 integrada não está disponível na plataforma Haswell, não tenho idéia do que realmente está dando errado. É bem certo que o chip acaba em um estado em que ele não consegue ser liberado da reinicialização (falha de autoteste, trilho de alimentação não está vindo, ...). Poderia estar relacionado à introdução de FIVR (Regulador de Tensão Totalmente Integrado) em Haswell, mas isso é apenas especulação.

Se você acertar este problema, ele não precisa ser a CPU, poderia ser uma placa-mãe com problemas ou PSU (ou algo totalmente diferente). Eu só queria postar isso para ser completo e para as pessoas verem que ele também pode ser uma falha na CPU (embora ainda seja bastante improvável).

    
por 22.04.2018 / 20:01
-1

Eu já vi esse comportamento duas vezes antes, tanto em laptops x86. Quando isso acontece, a tela congela, os LEDs permanecem acesos, mas nenhum botão funciona. O único botão que funciona é o botão liga / desliga, mas quando pressionado por 5 segundos.

Os laptops geralmente não têm botão de reinicialização, por isso não posso ter certeza do seu problema, mas as evidências apontam para uma falha de hardware. O que vi foram juntas de solda na placa ficando rachadas, seja por defeito, tempo ou tensão mecânica (ciclos de resfriamento a quente). Cada junta ruim injetará ruído elétrico. Obtenha o suficiente ou nos lugares certos e os circuitos digitais travarão, fazendo com que toda a placa congele. Isso não está no nível do SO ou no BIOS, está mais abaixo, no hardware. Nesse estado, somente o recurso de hold-down do botão liga / desliga funcionará, porque isso usa um circuito analógico que não bloqueia.

A correção é colocar a placa em um ciclo de reaquecimento (dentro de uma máquina) que derrete rapidamente a solda, fazendo com que as rachaduras sejam soldadas novamente e desapareçam.

Eu encontrei uma empresa especializada neste tipo de reparo.

No eBay, navegue até Serviços especializados - > Restauração & Serviços de reparo - > Restauração de Computadores & Serviços de reparo. O vendedor é "NYClaptoptech". Eu procurei pela marca / modelo e eles tinham um "item à venda" correspondente. Eu comprei este serviço da mesma forma que compraria um PC, usei o mesmo processo de checkout. (Parecia estranho configurar uma chamada de serviço usando o método de compra). Eu enviei a placa-mãe, consegui de volta em 2 semanas. Custo: US $ 120. Seu serviço é genérico e você pode simplesmente chamá-los para organizar um reparo.

    
por 24.12.2017 / 04:38