Como verificar se há falhas de hardware?

1

Eu vi algumas mensagens preocupantes em dmesg ultimamente.

Especificamente, monte:

[   19.367114] pcieport 0000:00:1c.5: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[   19.367148] pcieport 0000:00:1c.5:   device [8086:9d15] error status/mask=00000081/00002000
[   19.367172] pcieport 0000:00:1c.5:    [ 0] Receiver Error         (First)
[   19.367192] pcieport 0000:00:1c.5:    [ 7] Bad DLLP    

E:

[   20.121489] ath10k_pci 0000:03:00.0: Unknown eventid: 118809
[   20.124485] ath10k_pci 0000:03:00.0: Unknown eventid: 90118

Ou:

[   19.367213] pcieport 0000:00:1c.5: AER: Multiple Corrected error received: 0000:00:1c.5
[   19.367218] pcieport 0000:00:1c.5: can't find device of ID00e5

E mais preocupante:

Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: firmware crashed! (guid a62c787e-4709-4d94-a1a7-4e9357c2555a)
Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: failed to get memcpy hi address for firmware address 4: -16
Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: failed to read firmware dump area: -16

(Este acontece aproximadamente 50% do tempo na inicialização)

Tudo isso começou aparecendo em um tempo razoavelmente curto (~ 2 semanas). E como todos eles podem ter sido causados por uma falha de hardware, estou mais preocupado, existe uma maneira de testar todo ou a maioria do hardware?

(Além do travamento do firmware, que faz com que o Wi-Fi pare de funcionar, não vi nenhum impacto dos erros anteriores)

    
por Meowxiik 06.11.2018 / 19:28

3 respostas

0

O segundo e o quarto conjuntos de mensagens de log são dos drivers sem fio Atheros para seu hardware específico. Eles podem ser causados por problemas de hardware, mas também podem ser causados por problemas de firmware. Eu não lidei com coisas desse driver em particular antes, então não posso ajudar muito nelas.

O primeiro e terceiro conjuntos são ambos diretamente do subsistema PCI-e. Ambos estão falando sobre erros corrigidos. Já lidei com esses tipos de erros, e posso dizer por experiência que eles quase sempre indicam um problema de hardware de algum tipo (embora possa não ser um hardware ruim). O procedimento padrão que uso quando me deparo com esse tipo de erro é:

  • Verifique se não há dissipadores de calor ausentes, se todos os ventiladores estão funcionando corretamente e se não há acúmulo de poeira.
  • Para cada cada cartão add-in (não apenas aquele mostrando os problemas), remova o cartão e faça o seguinte (substituindo o cartão, se falhar em qualquer momento):
    • Inspecione os contatos na borda do cartão em busca de sinais de corrosão ou danos.
    • Inspecione os capacitores eletrolíticos em busca de sinais de vazamento.
    • Inspecione qualquer componente de plástico para sinais de fusão.
    • Inspecione o quadro inteiro em busca de marcas de queimaduras, descoloração incomum ou outros danos.
    • Verifique se a placa não cheira incomum, de preferência logo depois de ser alimentada. Um cheiro estranho é geralmente indicativo de vazamento de capacitores ou componentes superaquecidos, e geralmente estará presente mesmo se não houver uma indicação visível de tais problemas.
    • Inspecione o slot na placa principal de onde o cartão foi removido, procurando evidências de contatos tortos, corrosão ou fusão (uma boa lupa é útil para isso).
  • Verifique a própria placa-mãe como nas cartas. Se não passar na inspeção, substitua-a.
  • Verifique se a fonte de alimentação tem uma classificação suficientemente alta para o sistema e se está realmente fornecendo voltagens corretas. Você pode fazer uma verificação rápida de uma fonte de alimentação descarregada que tenha as tensões corretas com apenas um multímetro simples. Verificar se os trilhos não cedem quando a PSU é carregada é um pouco mais complicado, mas muitas placas-mãe boas terão monitoramento de tensão embutido que você pode verificar nos menus de configuração de firmware.
  • Se você tiver acesso a uma câmera térmica (real, não aos aplicativos de smartphone que simulam uma), verifique o interior do sistema enquanto ele está em execução. Nenhum ponto isolado deve mostrar uma temperatura acima de 85 graus Celsius (este é o limite padrão de temperatura superior para a maioria dos eletrônicos de consumo).

No lado positivo, você pode estar razoavelmente seguro de que o problema é específico do subsistema PCI express (e, portanto, é uma placa ruim ou ruim), a fonte de alimentação (embora isso seja improvável, se fosse sua fonte de alimentação, você provavelmente estaria vendo outros sintomas), ou o firmware na placa-mãe.

    
por 06.11.2018 / 21:44
1

A maneira mais prática de confirmar seu hardware é inicializar o software em bom estado. Por exemplo, um kernel antigo. O firmware antigo também seria bom - um Live CD / DVD que você sabe que as obras seriam ótimas.

Além disso, verifique seus registros - tem certeza de que ele começou apenas há duas semanas? Ou você só começou a perceber isso então?

Além disso, pelo menos se este for um PC de mesa (relativamente fácil de abrir e olhar), reserve um tempo para fazer uma inspeção visual do hardware: todos os fãs estão girando? Há algum dissipador de calor ausente (e os dissipadores de calor estão livres de poeira / fiapos)? Quaisquer capacitores protuberantes? Como há vários erros PCIe, se você estiver confortável com o hardware, também poderá recolocar todas as placas PCIe.

[O equipamento de teste real para provar a existência de uma falha de hardware provavelmente custaria substancialmente mais do que apenas substituir o computador.]

    
por 06.11.2018 / 20:40
0

Algumas coisas para tentar diagnosticar o problema. Carregue um sistema operacional diferente e veja se os mesmos erros aparecem (problema de software) Tente inicializar o sistema operacional antigo sem algumas das placas PCI (hardware). Tente reverter o BIOS e veja se os erros desaparecem. Um deles eliminará o erro e você saberá qual parte da sua máquina estava tendo problemas. Manter uma lista dos erros e ver quais erros desaparecem ou permanecer com as diferentes alterações pode ajudá-lo a diagnosticar se você tiver vários problemas ou apenas um. Este acontece aproximadamente 50% do tempo na inicialização Isso faz parecer que pode ser um problema de hardware para mim. Tente abrir a caixa e verificar se há cartões / cabos soltos. Limpar qualquer poeira ou executar sua configuração em um ambiente mais frio terá efeitos positivos na sua experiência. Boa sorte!

    
por 06.11.2018 / 20:51

Tags