Existe algum log no SuSe Linux que diga se uma máquina trava devido a uma fuga?

1

Eu tenho um servidor Linux SuSe que está pendurado devido a problemas desconhecidos, estou a ponto de me perguntar se há um processo de fuga sendo executado de vez em quando que está causando a interrupção.

A questão é que eu não sei onde procurá-lo depois que o problema acontece ... (Eu não quero passar um dia inteiro olhando em cima para encontrar um fugitivo) - então minha pergunta é a seguinte: Existe algum log no SuSe que registra fugas? Se não, existe uma maneira de registrar essas coisas?

Muito obrigado!

    
por Dan V 18.05.2012 / 18:53

4 respostas

3

Mais informações ajudariam. Como você está definindo "travar"? Supondo que você tenha acesso físico ao servidor, você pode verificar quais mensagens do kernel aparecem na tela após o travamento. O servidor requer uma reinicialização depois de parar?

Você pode rastrear os logs normais do sistema até o ponto da falha em / var / log / messages. Se você tiver uma sessão aberta quando o servidor parar, observe as mensagens do driver executando dmesg .

Você tem algum detalhe sobre o hardware? Se este for um hardware de nível de servidor, você poderá verificar os logs de hardware do sistema para ver se há um problema como RAM com defeito, etc.

    
por 18.05.2012 / 21:32
0

Não, geralmente, não existe um mecanismo para dizer exatamente o que quebrou, causando o "travamento".

Enquanto a sua máquina está rodando, use top para procurar processos que consumam muita CPU, free para verificar problemas de memória (Trocar para o disco pode tornar uma máquina muito, muito lenta) e olhar através de / var / log skimming arquivos para ver se algo parece errado.

ps aux | grep Z irá filtrar os processos zumbis se houver algum.

    
por 18.05.2012 / 22:01
0

Eu tenho um caso aberto com SuSE onde um servidor congela. Eles recomendaram estas etapas:

  • Conecte um console serial (não muito interessante para congelamentos) e você terá o iLO ...
  • Redirecionar syslog para uma máquina remota (para que você possa ver as "últimas palavras famosas" - talvez um pouco antes do sistema de origem poder sincronizá-lo com / var / log / messages)
  • Instale um KDUMP-Kernel e um debug-kernel (dá-lhe a oportunidade de obter um kernel-oops em vez de um congelamento)
O último ajudou no meu caso - mas eu fui capaz de recrutar o problema ativando uma certa ação - então eu obtive um Kernel Debug antes do congelamento e com isso o SuSE foi capaz de me fornecer um PTF (point-to -fix) Kernel, que removeu o problema.

Mas você ainda não descreveu em quais circunstâncias seu problema ocorreu - no meio da noite? Nunca durante o trabalho?

    
por 28.05.2012 / 23:26
-2

Para verificar o processo Zombie (extinto), podemos usar o comando.

ps aux|awk '$8 == "Z" {print $0}'

que imprimirá apenas o processo que é extinto.

    
por 03.12.2013 / 08:33