O que pode causar um travamento do kernel no redhat 4?

1

Eu tenho que resolver um problema desagradável em um "cluster" de dez máquinas: aleatoriamente uma dessas máquinas travar durante uma computação difícil, em algum momento ainda pingar algum tempo não.

O problema me foi descrito no telefone, eu ainda não toquei / consultei essas máquinas, então não posso ser mais preciso. Parece que não há nenhum teclado (real) ou monitor ligado a eles, então não tenho nada sobre o teclado ou as mensagens no monitor.

Não se preocupe, o que eu realmente preciso é de alguma sugestão de onde procurar o problema, algumas sugestões sobre o que pode causar um kernel travado em uma máquina em funcionamento.

Eu também vejo este post , mas parece precisar mesmo de uma situação diferente.

Minhas ideias desde agora:
- problema HW (ram, cpu, ventilador etc.)
- má configuração do autofs
- configuração ruim de nfs (?)
- presença de um trojan / hacker / etc
- / dev / "swap" ligado a / dev / zero
- kernel sem memória (??)
- kernel com defeito em bug

Em outras palavras, tento imaginar que tipo de envento pode ocorrer que pode derrubar o kernel inserido no aplicativo que gera o evento.

Qual travamento tem YOU antes? Escreva para mim!

TIA

    
por Ivan Buttinoni 09.01.2011 / 10:54

2 respostas

1
Primeiro de tudo, enquanto RHEL 4 é muito antigo por si só, ainda é mantido e você pode tentar atualizar com os mais recentes patches (Veja o Informações do Wiki ).

Um kernel panic / hang pode vir de várias razões. Os que eu experimentei são principalmente devido a

  1. Problema de memória: instale (por exemplo) uma versão do Ubuntu em um CD, e inicialize-o, execute memtest86+ , ele verifica ativamente a memória (pode levar algum tempo para revelar um problema).

  2. Problema de hardware: causando interrupções inesperadas que colocam o sistema em uma situação irrecuperável, envia a execução do kernel para "espaço", quebra a pilha ...

  3. Problema do módulo: um módulo inadequado (um módulo que não corresponde exatamente ao hardware, por exemplo, ou um módulo com bug) tem acesso privilegiado e pode travar o sistema. Os kernels mais antigos estão particularmente em risco (versões mais recentes melhor recuperam com um problema de módulo defeituoso).

Também vi travamentos misteriosos (antigos) do sistema devido a

  1. A bateria CMOS da placa-mãe que estava morta (altere-a, é barata).

  2. Um cabo de rede ruim

Talvez o momento certo para atualizar para um sistema mais recente (atualmente, não há nada errado em ter um servidor com o Ubuntu 10.04.1 LTS, por exemplo).

    
por 09.01.2011 / 15:13
0

Existem inúmeras maneiras que uma caixa RHEL 4 (ou qualquer caixa) pode travar. Você precisa coletar mais informações. Eu começaria com logs a partir do momento do hang. Você também pode configurar o watchdog do NMI para forçar um pânico da caixa se ela ficar suspensa no kernel, e o netconsole para gravar as mensagens do console quando isso acontecer. Se o sistema estiver apenas morrendo sob carga pesada e não responder sem ficar completamente preso no próprio kernel, você pode configurar o hangwatch para acionar várias mensagens de diagnóstico (descartadas para log ou over netconsole) ou até mesmo reinicializar a caixa se ela atingir uma determinada carga limiar.

    
por 09.01.2011 / 14:51