Ocupa aleatoriamente o Ubuntu 10.04 em várias instâncias do host Xen VPS

2

Portanto, temos o Ubuntu 10.04 em execução - todos os 64 bits. O kernel 2.6.36 e 2.6.38-15 estão tendo os mesmos problemas.

O problema é que os servidores VPS aleatórios estão suspensos. Temos cerca de 30 instâncias com esse host específico. Congela sem nada nos logs - nem no dmesg, kernel.log, syslog ou em qualquer lugar. O log está configurado corretamente.

No entanto, no console, há vários erros de "tarefa suspensa por 120 segundos" durante essa falha. Aparentemente, o sistema não pode escrever durante essa falha. Temos dois tipos de servidores, servidores webapp Java e servidores MySQL.
Ambos os tipos estão tendo erros "" task flush-2 ** / java / kjournald bloqueados por mais de 120 segundos. " Mesmo no servidor sem aplicativo Java instalado, ele tem "o mysqld bloqueado por mais de 120 segundos". Todos os dias.

O uso da memória é normal. Quase nenhuma troca está sendo usada. Mas aleatoriamente a cada poucos dias, quando um pico de carga acontece, entre 8-10 carga média - um servidor / vps aleatório apenas congela com o erro. Testes de carga para 100 méd (800% em 8 núcleos) foram feitos, testes de tensão de E / S foram feitos. Os tempos de espera de IO são normais durante a falha. Não podemos replicar esse problema com testes de estresse.

O sistema MySQL tem 8 núcleos (2 cpus) - os servidores de aplicativos Java possuem um sistema de 2 núcleos - Todos os Intel Xeons. Eles também estão em servidores pai Xen diferentes aparentemente. O ISP está dizendo que não há problemas de hardware conhecidos e os outros "convidados" estão indo bem. Eles também estão perplexos. Existe alguma coisa que eu possa fazer para descobrir qual é o problema? Não há despejo principal ou qualquer coisa que o sistema possa gravar quando esse problema acontecer.

Eu tentei alterar o agendador de E / S com algum progresso. O padrão era CFQ e Deadline em alguns servidores, mudei o agendador para noop com algum nível de sucesso, mas os servidores ainda travam. fstab é "/ dev / xvda3 / ext3 erros = remount-ro 0 1"

Os servidores são todos corrigidos, com firewall e não há nada de estranho em nenhum dos logs. Fsck foi feito. Xen versão 3.4 de acordo com o dmesg. Estamos usando o XYMON para monitoramento e logo antes do crash TOP, a memória etc parece normal.

Outra peculiaridade estranha que descobri é que o relógio coincide com a carga do sistema.
Em um gráfico, a média de carga da CPU é alinhada com um deslocamento de clock maior - o ntpudate precisa ser executado a cada 5 minutos por esse motivo. isso é normal para carga? ou isso pode ser um problema de hardware?

Existe alguma maneira que eu possa descobrir o que está causando isso?

tia

    
por Tom C 18.08.2012 / 04:20

2 respostas

1

Você tem algum tipo de configuração de monitoramento (Zenoss, Icinga, Nagios)? Um deles lhe daria muita informação, especialmente dependendo de como eles estão configurados. Eu não ficaria surpreso se algum processo tivesse um vazamento de memória ou estivesse fugindo. Você pode configurar um monitoramento rápido e sujo, que pode fornecer algumas informações:

# top -d 5 > /var/log/top.out
    
por 18.08.2012 / 19:30
0

Juntamente com as mensagens do kernel que você estava vendo no console, também exibiu erros ao longo das linhas de:

BUG: soft lockup - CPU#2 stuck for XXXXXXXXXs! [process:XXXX]

Se tivermos uma olhada em: link

O último comentário fornece uma maneira de ativar o registro mais detalhado, para que você possa ver o que está causando isso. No entanto, isso requer um pouco de modificação e recompilação do kernel.

    
por 21.08.2012 / 00:51