Por que meu servidor desaparece acidentalmente?

1

Eu tenho o servidor baseado no CentOS 5.3 com o kernel 2.6.18-128.2.1.el5. Funcionou bem por quase um mês, mas esta semana caiu três vezes. Eu vi no Nagios, escrever um email para reiniciar o servidor. Funcionou 12-36 horas e depois desceu novamente.

Eu examino os arquivos de log. Pouco antes da primeira falha em /var/log/messages , esta mensagem foi:

logrotate: ALERT exited abnormally with [1]

Após reiniciar o servidor na segunda vez que o sysadmin do datacenter me enviar esta captura de tela: texto alternativo http://www.freeimagehosting.net/uploads/bd9fb68d98.png Antes da terceira falha em /var/log/messages ser mensagem:

Eeek! page_mapcount(page) went negative (-1)

Como devo investigar o problema?

UPD:

Parte da memtester output:

Compare OR          : FAILURE: 0x7e9f90d1 != 0x7e9fd2d1 at offset 0x06222609.
FAILURE: 0x7e9f90d1 != 0x7e9fd0d1 at offset 0x06222621.
FAILURE: 0x7e9f90d1 != 0x7e9fd1d1 at offset 0x06222661.
FAILURE: 0x7e9f90d1 != 0x7e9f92d1 at offset 0x06222681.
FAILURE: 0x7e9f90d1 != 0x7e9fd0d1 at offset 0x062226a1.
FAILURE: 0x7e9f90d1 != 0x7e9fd0d1 at offset 0x062226c1.
FAILURE: 0x7e9f90d1 != 0x7e9f93d1 at offset 0x062226e9.

É uma memória defeituosa. Obrigado pela ajuda!

    
por lexsys 30.07.2009 / 14:17

5 respostas

3
Meu primeiro palpite é que o Nagios tem um pequeno vazamento de memória e depois de meses de execução ficou sem memória RAM ou swap. No entanto, uma vez que a máquina caiu algumas vezes no mesmo dia, isso sugere um chip RAM defeituoso. Meu primeiro passo seria fazer um teste de memória ou verificar o log de memória ruim (se o servidor suportar isso).

    
por 30.07.2009 / 14:30
2

Eu voto ram com defeito também. Eu recomendaria usar memtest86 para fazer uma verificação completa do carneiro. Além disso, as temperaturas na sala são legais e legais?

    
por 30.07.2009 / 14:37
1

Eu voto RAM com defeito também. Se você não pode usar o memtest86 porque a máquina está localizada remotamente, você pode querer experimentar uma ferramenta userspace - memtester. Não funciona tão bem, mas pode ser capaz de detectar alguns erros de memória, se eles estiverem lá.

    
por 30.07.2009 / 14:47
0

Apenas uma olhada rápida, parece que o processo que surgiu foi o Nagios. Isso tem sido consistente toda vez que é exibido e trancado? Em caso afirmativo, gostaria de perguntar se os problemas começaram na hora em que você configurou o Nagios. Se for esse o caso, você pode querer tentar desligar o Nagios e ver se o servidor está estável. Se isso acontecer, você encontrou o culpado e precisa olhar mais de perto para ver o que há de errado com o Nagios.

    
por 30.07.2009 / 14:26
0

Os fóruns / listas do Google ou do Centos provavelmente serão sua melhor aposta. Sem um crsah dump, será difícil ter certeza, então você deve procurar configurar isso.

Você também pode pesquisar através do Red Hat Bugzilla. Este parece uma possibilidade baseada no pouco que você tem da captura de tela.

    
por 30.07.2009 / 14:36