Portanto, temos o Ubuntu 10.04 em execução - todos os 64 bits.
O kernel 2.6.36 e 2.6.38-15 estão tendo os mesmos problemas.
O problema é que os servidores VPS aleatórios estão suspensos. Temos cerca de 30 instâncias com esse host específico. Congela sem nada nos logs - nem no dmesg, kernel.log, syslog ou em qualquer lugar. O log está configurado corretamente.
No entanto, no console, há vários erros de "tarefa suspensa por 120 segundos" durante essa falha. Aparentemente, o sistema não pode escrever durante essa falha.
Temos dois tipos de servidores, servidores webapp Java e servidores MySQL.
Ambos os tipos estão tendo erros "" task flush-2 ** / java / kjournald bloqueados por mais de 120 segundos. "
Mesmo no servidor sem aplicativo Java instalado, ele tem "o mysqld bloqueado por mais de 120 segundos".
Todos os dias.
O uso da memória é normal. Quase nenhuma troca está sendo usada.
Mas aleatoriamente a cada poucos dias, quando um pico de carga acontece, entre 8-10 carga média - um servidor / vps aleatório apenas congela com o erro. Testes de carga para 100 méd (800% em 8 núcleos) foram feitos, testes de tensão de E / S foram feitos. Os tempos de espera de IO são normais durante a falha. Não podemos replicar esse problema com testes de estresse.
O sistema MySQL tem 8 núcleos (2 cpus) - os servidores de aplicativos Java possuem um sistema de 2 núcleos - Todos os Intel Xeons.
Eles também estão em servidores pai Xen diferentes aparentemente.
O ISP está dizendo que não há problemas de hardware conhecidos e os outros "convidados" estão indo bem.
Eles também estão perplexos.
Existe alguma coisa que eu possa fazer para descobrir qual é o problema?
Não há despejo principal ou qualquer coisa que o sistema possa gravar quando esse problema acontecer.
Eu tentei alterar o agendador de E / S com algum progresso.
O padrão era CFQ e Deadline em alguns servidores, mudei o agendador para noop com algum nível de sucesso, mas os servidores ainda travam.
fstab é "/ dev / xvda3 / ext3 erros = remount-ro 0 1"
Os servidores são todos corrigidos, com firewall e não há nada de estranho em nenhum dos logs.
Fsck foi feito.
Xen versão 3.4 de acordo com o dmesg.
Estamos usando o XYMON para monitoramento e logo antes do crash TOP, a memória etc parece normal.
Outra peculiaridade estranha que descobri é que o relógio coincide com a carga do sistema.
Em um gráfico, a média de carga da CPU é alinhada com um deslocamento de clock maior - o ntpudate precisa ser executado a cada 5 minutos por esse motivo. isso é normal para carga? ou isso pode ser um problema de hardware?
Existe alguma maneira que eu possa descobrir o que está causando isso?
tia