Como faço para diagnosticar uma falha no Linux?

3

Eu tenho um servidor Linux caseiro (Ubuntu 12.04.5 LTS, Intel i5-3570K, 8GB RAM) atuando principalmente como servidor de e-mail e web. Ele opera apenas no modo de console (sem GUI). Eu vou SSH para ele agora e, em seguida, e quase nunca operá-lo a partir do console. Ele tende a funcionar bem por muitos dias, até mesmo semanas, mas às vezes cai com dificuldade sem aviso prévio. E quando digo "falha", quero dizer que o PC de repente se torna completamente sem resposta:

  • Não deixa entradas de log
  • Ele não emite "Oops", mensagem de pânico do kernel ou dump principal
  • Ele não exibe nenhuma mensagem na tela.
  • Ele não responde a nenhuma entrada de teclado ou mouse (a luz NumLock também não responde a essa chave)
  • Não pode ser acessado por SSH
  • O botão de reinicialização do gabinete não funcionará

A única solução é segurar o botão liga / desliga até que ele seja desligado e reiniciá-lo.

É claro que isso grita "problema de hardware", mas qual componente é o mais provável? O Memtest86 + não mostra nenhum erro, de modo que parece deixar o Big Three - motherboard, CPU ou fonte de alimentação. (O PC não está com overclock e as últimas mensagens do sensor (antes da falha) não indicam problemas de superaquecimento ou ventilador)

  1. Existe uma probabilidade estatística de qual desses componentes é provável que seja o problema?

  2. Eu coloquei o último critério em negrito acima porque parecia incomum para mim. Normalmente, mesmo com uma falha grave, um PC ainda pode ser reinicializado com a chave de reinicialização do gabinete. Isso sugere um problema com a PSU ou com a placa-mãe? (segurando no interruptor de energia 4-5 segundos para desligar o PC ainda funciona)

  3. Existe uma maneira de testá-los sem simplesmente pedir novas peças uma de cada vez, até que eu esteja confiante (depois de várias semanas sem falhas) que o problema foi resolvido?

Obrigado a qualquer um que possa ajudar.

    
por George Adams 16.12.2015 / 20:31

3 respostas

1

1: O seu Ubuntu é estável? Você baixou uma versão estável do Ubuntu? se não tentar fazer downgrade para a versão estável mais recente.

2: Você já tentou em outro Virtual / Physical Machine? Poderia muito bem ser um erro de script testá-lo em uma VM como o Virtual Box, que provavelmente evitaria qualquer travamento se você não tivesse tentado essas etapas, mas também lhe daria um ambiente onde você poderia depurar e monitorar o SO

3: falha de ram? Ok, então é muito improvável que seja o SSD / HDD / SSHD local porque o sistema operacional Linux é carregado na RAM e ele postaria um aviso se houvesse uma incapacidade de contatar o kernel, então ele iria falhar. no entanto, se o aríete for trancado, porque o seu defeituoso / defeituoso o sistema operacional congelaria completamente sendo incapaz de postar (ou mesmo estar ciente de) quaisquer erros que possam explicar que não existem logs. No entanto, é MUITO possível que possa ser algo diferente

4: Dê uma olhada nos fóruns Ok, eu não sou o usuário de Linux mais efetivo por aí e há muita coisa que eu realmente não sei que eu tive problemas similares de hardware e software, no entanto eu realmente não sei o que é que o seu servidor caseiro faz por isso é difícil identificar a falha lá fora, procurar no Fórum

    
por 16.12.2015 / 21:18
1

Estou um pouco surpreso por ninguém ter sugerido o uso da chave mágica SysRq .

Primeiro de tudo, ele deve ser usado em vez do interruptor para forçar a reinicialização, porque isso dá aos programas uma chance de salvar dados não salvos no disco; a falha em fazer isso pode causar problemas consideráveis na reinicialização (sem mencionar a falha de ter que esperar pela usual fsck check). Isso é feito da seguinte maneira: mantendo pressionados Alt e SysRq pressionados simultaneamente, digite, cada um espaçado por alguns segundos, r e i s u b (os famosos mnemônicos em inglês são Raising Elephants É Tão Totalmente Chato , eu prefiro que o Running Errands seja tão completamente chato , tente criar um melhor se puder).

Mesmo fora disso, quando o sistema congela o uso de Alt + SysRq + X (onde X é uma letra) permite para executar alguns diagnósticos: por exemplo, X=d exibe todos os bloqueios atuais, o que pode ajudar a diagnosticar um problema de software; X=j descongela sistemas de arquivos congelados; X=l ( l é um ell) mostra um backtrace de pilha; X=t envia ao console uma lista de tarefas atuais; X=w exibe uma lista de tarefas bloqueadas.

Você pode encontrar mais códigos na Wikipedia .

Embora eu não possa dizer que isso será um passo decisivo (há situações em que até isso falha), ainda é o próximo passo na investigação, que ajudará a apontar um problema de software ou hardware e a restringir o alcance de possíveis culpados.

    
por 17.12.2015 / 09:55
0

O melhor que você pode fazer é olhar para os logs perto da hora do bloqueio e ver se é possível correlacionar o bloqueio com qualquer evento do sistema de qualquer tipo. É uma coisa difícil de fazer e você pode não encontrar nada que possa ser uma causa direta dessa maneira.

Algumas dicas para diagnosticar problemas de hardware:

A coisa mais fácil de eliminar é problemas / configurações de firmware:

  • Verifique se o seu sistema possui as atualizações de firmware / BIOS mais recentes do fabricante.

  • Verifique se todos os dispositivos de armazenamento também foram atualizados para o firmware mais recente.

  • Tente desabilitar qualquer CPU ou outras opções de gerenciamento de energia no firmware / BIOS.

  • Tente desabilitar a virtualização no firmware, se você não usá-lo.

Problemas com RAM podem causar travamentos difíceis mesmo que não apareçam em um teste de memória. Pode ser algo muito intermitente. Servidores reais têm memória RAM ECC que impede que erros de RAM raros / transitórios causem problemas, mas se este for um PC não-servidor, não tem isso. Tente trocar a RAM, se puder.

Um problema de energia do seu poder de parede pode causar problemas como este. Se você é sério sobre a execução de um servidor doméstico, você deve ter um backup de bateria que também filtra os problemas de energia transitória.

Se os problemas persistirem, tente substituir a fonte de alimentação ou usar outra.

Depois, assuma que a placa-mãe é escamosa e procure substituir.

    
por 16.12.2015 / 20:45