Como diagnosticar várias falhas do sistema Linux?

0

Estou tendo vários problemas importantes com minha máquina Linux: Kubuntu 13.10 (instalação limpa recente), placa de vídeo MSI (AMD Phenom II X3 720; 8 Gigabyte RAM), placa de vídeo NVidia GeForce GT 630 (usando o módulo do kernel 319.60). O motherborad foi recentemente substituído há cerca de 3 meses - uma loja local de 'reparação' fritou a placa-mãe original enquanto 'diagnosticava' o que acabou sendo um problema de software. CPU, RAM e placa de vídeo foram testados, então entraram no novo quadro.

Os problemas começaram há cerca de 6 a 8 semanas, com apenas pequenos problemas ocasionais, cada um dos quais comecei a tentar resolver individualmente.

  1. Ocasionalmente, as janelas do aplicativo ficam suspensas e tudo o que é exibido é uma tela plana e cinza: todas as decorações da janela desapareceram. Eu trabalhei em torno deste problema, desligando os efeitos da área de trabalho do kwin, quando vi uma mensagem com o seguinte flash:

    Os efeitos da área de trabalho do kwin foram reiniciados ... devido à reinicialização dos gráficos

  2. Os backups tar falharam ao concluir as últimas três semanas: primeiro, um "erro de verificação crc", um sistema interrompido e, finalmente, um gzip suspenso.

  3. Numerosas mensagens do dmesg como: "BUG: CPU # 2: Bloqueio suave no tar". Depois de pesquisar esse problema, eu não tenho certeza se isso é um bug ... apenas uso pesado de CPU tar / gzip?

  4. O Google Chrome separa aleatoriamente e com frequência as guias com uma mensagem "Aw, Snap". A equipe do Google Enterprise sugeriu um erro no mecanismo V8, mas também sugeriu problemas de hardware.

Estou tentando entender o que está errado e o que fazer para diagnosticar e resolver os problemas. Eu estou supondo hardware? E, em caso afirmativo, qual componente é mais provável de estar causando o problema e como posso isolar isso? Eu vou estar rodando um memtest86 +, baseado em outro post aqui.

    
por JESii 25.12.2013 / 19:02

2 respostas

2

Memória ruim! Todos esses sintomas foram aparentemente causados por memória ruim. Memtest86 + relatou erros em 5 locais (8Gigs, 2x4). Substituído com nova memória, o Memtest86 + foi limpo por dois passes completos. Agora sendo executado há mais de 12 horas e sem problemas com o Google Chrome, o backup de tar foi bem executado e verificado.

O que eu aprendi: vários sintomas? Teste de memória.

    
por 27.12.2013 / 15:14
2

Problemas intermitentes como esses são difíceis de diagnosticar, mas cheiram como um problema de hardware.

memtest86 + é uma boa ideia. Além disso, você está monitorando sua CPU e outras temperaturas da placa-mãe? Eu acredito que o superaquecimento pode causar falhas intermitentes como as que você está vendo. Quando a placa principal foi substituída, o dissipador de calor pode não ter sido reconectado bem à CPU (ou chipset). Uma coisa barata para tentar seria substituir a camada de interface térmica entre a CPU e o dissipador de calor.

Se isso não funcionar, provavelmente você terá que começar a trocar componentes de hardware para excluir cada um deles. Comece com a placa de vídeo, se você tiver um sobressalente, mas parece que você pode ter falhas em vários sistemas, o que sugere uma placa-mãe ruim. Desculpe.

    
por 25.12.2013 / 19:19