Ubuntu 10.04 crash do servidor

3

Estou executando um Ubuntu 10.04 (x64) como um servidor web / mysql.

O servidor não respondeu ao SSH, Ping, HTTP etc. e o técnico com acesso físico à máquina me enviou este screengrab aqui:

link

do monitor conectado antes de ser reinicializado (e a situação é corrigida). Não tenho certeza de qual log essa informação é mantida, pois não consigo encontrar o texto depois de verificar os logs após a reinicialização.

Alguém pode me ajudar a investigar o que aconteceu para tentar garantir que isso não aconteça novamente?

Obrigado

    
por JamieNewman 21.12.2010 / 15:46

5 respostas

2

O pânico do kernel pode vir de várias razões, geralmente um problema de módulo (um driver que não cabe no seu hardware) ou um problema de hardware.

No seu caso, se o problema não for repetitivo, é mais provável que seja de origem de hardware. E pode ser a memória (a memória ruim nem sempre é fácil de identificar).

Gostaria de inicializar o servidor - e escolher durante a tela do grub (logo após inicializar) a opção "memtest86". O teste de memória precisa ser executado vários dias continuamente.
Se após 3 dias não houver erro, a memória é talvez ok.

    
por 22.12.2010 / 00:26
2

Se você não tiver outras informações (como o ring0 disse, elas não serão salvas em disco em algum lugar), então não há mais nada que você possa fazer.

Se você deseja ser proativo ou acontecer aleatoriamente mais algumas vezes, tente o LKCD para capturar um dump principal. link

Eu não sei quanta RAM você tem, mas até tentar o memtest86 por algumas horas pode ser benéfico. Não vai pegar erros realmente raros, obviamente.

Eu também sugiro que você adicione kernel.panic = 5 /etc/sysctl.conf. Isso fará com que o servidor seja reinicializado automaticamente após 5 segundos se o kernel travar novamente.

Finalmente, acho que você deve sempre ter algum tipo de gerenciamento de iluminação. Então você pode fazer o login e copiar a mensagem e reiniciar o servidor você mesmo.

    
por 09.01.2011 / 04:06
0

Eu vi essas falhas quando os servidores foram executados com carga muito alta / muitos processos durante um período prolongado de tempo. Para verificar geralmente o que está acontecendo em sua máquina, recomendo instalar uma estrutura de monitoramento, como o munin no seu servidor - que ajudará na análise caso isso aconteça novamente.

    
por 21.12.2010 / 15:54
0

Ok, esse é um rastreamento de pilha do kernel. Eu não sou um especialista em kernel, mas a causa envolve interrupções, irq (interrupção) balanceamento e provavelmente PICs. Isso é mais comum no hardware do laptop do que no servidor. A solução de laptop quebrado é inicializar com uma opção de kernel noapic.

    
por 22.12.2010 / 00:08
0

Isso pode parecer um pouco errado, mas eu tive problemas com o Ubuntu x64 em execução em um servidor que era um servidor de 64 bits. Eu tive esses mesmos erros e subsequentes problemas de "congelamento" com muita freqüência. Ele tentou remover drivers, adicionar drivers de volta, passou horas procurando por bugs e nada estava ajudando. Eu finalmente consegui resolver isso instalando uma versão de 32 bits do Ubuntu. Funcionou, eu não precisei de 64 bits, então deixei andar. Esta não é uma boa solução se você precisar de 64 bits, mas isso pode lhe dar um caminho para explorar um pouco. Talvez procure o servidor em execução no Ubuntu e veja se existem problemas de compatibilidade em torno dele. Boa sorte.

    
por 09.01.2011 / 05:47