Eu tenho o servidor baseado no CentOS 5.3 com o kernel 2.6.18-128.2.1.el5. Funcionou bem por quase um mês, mas esta semana caiu três vezes. Eu vi no Nagios, escrever um email para reiniciar o servidor. Funcionou 12-36 horas e depois desceu novamente.
Eu examino os arquivos de log. Pouco antes da primeira falha em /var/log/messages
, esta mensagem foi:
logrotate: ALERT exited abnormally with [1]
Após reiniciar o servidor na segunda vez que o sysadmin do datacenter me enviar esta captura de tela:
texto alternativo http://www.freeimagehosting.net/uploads/bd9fb68d98.png
Antes da terceira falha em /var/log/messages
ser mensagem:
Eeek! page_mapcount(page) went negative (-1)
Como devo investigar o problema?
UPD:
Parte da memtester
output:
Compare OR : FAILURE: 0x7e9f90d1 != 0x7e9fd2d1 at offset 0x06222609. FAILURE: 0x7e9f90d1 != 0x7e9fd0d1 at offset 0x06222621. FAILURE: 0x7e9f90d1 != 0x7e9fd1d1 at offset 0x06222661. FAILURE: 0x7e9f90d1 != 0x7e9f92d1 at offset 0x06222681. FAILURE: 0x7e9f90d1 != 0x7e9fd0d1 at offset 0x062226a1. FAILURE: 0x7e9f90d1 != 0x7e9fd0d1 at offset 0x062226c1. FAILURE: 0x7e9f90d1 != 0x7e9f93d1 at offset 0x062226e9.
É uma memória defeituosa. Obrigado pela ajuda!
Eu voto ram com defeito também. Eu recomendaria usar memtest86 para fazer uma verificação completa do carneiro. Além disso, as temperaturas na sala são legais e legais?
Eu voto RAM com defeito também. Se você não pode usar o memtest86 porque a máquina está localizada remotamente, você pode querer experimentar uma ferramenta userspace - memtester. Não funciona tão bem, mas pode ser capaz de detectar alguns erros de memória, se eles estiverem lá.
Apenas uma olhada rápida, parece que o processo que surgiu foi o Nagios. Isso tem sido consistente toda vez que é exibido e trancado? Em caso afirmativo, gostaria de perguntar se os problemas começaram na hora em que você configurou o Nagios. Se for esse o caso, você pode querer tentar desligar o Nagios e ver se o servidor está estável. Se isso acontecer, você encontrou o culpado e precisa olhar mais de perto para ver o que há de errado com o Nagios.
Os fóruns / listas do Google ou do Centos provavelmente serão sua melhor aposta. Sem um crsah dump, será difícil ter certeza, então você deve procurar configurar isso.
Você também pode pesquisar através do Red Hat Bugzilla. Este parece uma possibilidade baseada no pouco que você tem da captura de tela.
Tags linux centos server-crashes