pode causar alta carga servidor travar e erro "bloqueado por mais de 120 segundos"?

Question

pode causar alta carga servidor travar e erro "bloqueado por mais de 120 segundos"?

#1 resposta do (16 votos)
#2 resposta do (5 votos)
#3 resposta do (2 votos)

16

Atualmente executando alguns servidores de VMs e 'baremetal'. Java está sendo executado em alta - mais de 400% + às vezes. Aleatoriamente o servidor trava com o erro no console "java - bloqueado por mais de 120 segundos" - kjournald, etc.

Não consigo obter uma saída do dmesg porque, por algum motivo, esse erro é gravado apenas no console, ao qual não tenho acesso, pois ele é hospedado remotamente. portanto, não posso copiar um traço completo.

Mudei o ambiente em que isso está - até mesmo o servidor físico e ainda está acontecendo.

Eu alterei o hung_task_timeout_secs para 0, caso contrário, isso é um falso positivo, conforme link .

Além disso, o irqbalance não está instalado, talvez ajude?

este é o Ubuntu 10.04 64bit - o mesmo problema com o último 2.6.38-15-server e o 2.6.36.

problemas com cpu ou memória / se não houver troca por causa deste problema?

aqui está a mensagem do console:

[58Z?Z1.5?Z840] INFUI task java:21547 blocked for more than 120 seconds.
[58Z?Z1.5?Z986] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?Z06Z] INFUI task kjournald:190 blocked for more than 120 seconds.
[58Z841.5?Z336] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?Z600] INFUI task flush-202:0:709 blocked for more than 120 seconds.
[58Z841.5?Z90?] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?3413] INFUI task java:21547 blocked for more than 120 seconds.
[58Z841.5?368Z] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z961.5?ZZ36] INFUI task kjournald:60 blocked for more than 120 seconds.
[58Z961.5?Z6Z5] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z961.5?31ZZ] INFUI task flush-202:0:709 blocked for more than 120 seconds.
[58Z961.5?3393] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.

kernel linux

por Tee 05.07.2012 / 21:41

3 respostas

Tags kernel linux

Devo estar usando iptables ou ufw? Como verificar se o Emacs está no modo GUI (e executar 'tool-bar-mode' somente então)?

score 16 · Answer 1

Sim, poderia.

O que isto significa é bastante explícito: o kernel não conseguiu agendar a tarefa por 120 segundos. Isso indica a falta de recursos, geralmente em torno do acesso ao disco.

irqbalance pode ajudar, mas isso não parece óbvio. Você pode nos fornecer o entorno desta mensagem em dmesg , em especial o rastreamento de pilha que a segue?

Além disso, isso não é falso positivo. Isso não diz que a tarefa está pendente para sempre , e a afirmação está perfeitamente correta. Isso não significa que é um problema para você e você pode decidir ignorá-lo se não notar qualquer impacto no usuário.

Isso não pode ser causado por:

um problema de CPU (ou melhor, seria uma falha de hardware insanamente improvável),
um problema de memória (muito improvável uma falha de hardware, mas não aconteceria várias vezes; não falta de RAM como um processo seria oom-killed ),
falta de swap ( oom-killer novamente).

Por extensão, você pode culpar isso pela falta de memória, no sentido de que privar seu sistema de cache de dados na RAM causará mais E / S. Mas não é tão simples como "ficar sem memória".

score 5 · Answer 2

sudo sysctl –w vm.dirty_ratio=10
sudo sysctl –w vm.dirty_background_ratio=5

Em seguida, confirme a alteração com:

sudo sysctl –p

resolveu isso para mim ...

score 2 · Answer 3

Recentemente, passei por esse erro em um dos nossos clusters de produção:

Nov 11 14:56:41 xxx kernel: INFO: task xfsalloc/3:2393 blocked for more than 120 seconds.

Nov 11 14:56:41 Xxxx kernel: Not tainted 2.6.32-504.8.1.el6.x86_64 #1

Nov 11 14:56:41 xxx: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.

..

Em verificação adicional dos logs sar Encontrou-se que a espera do IO aumentou durante o mesmo tempo.

E ao verificar o Hardware (Discos Físicos), os erros médios e outros erros SCSI haviam sido registrados em um dos Discos Físicos, que, por sua vez, estava bloqueando os IOs, devido à falta de recursos para alocar.

11/11/15 19:52:40: terminatated pRdm 607b8000 flags=0 TimeOutC=0 RetryC=0 Request c1173100 Reply 60e06040 iocStatus 0048 retryC 0 devId:3 devFlags=f1482005 iocLogInfo:31140000

11/11/15 19:52:40: DM_ProcessDevWaitQueue: Task mgmt in process devId=x 11/11/15 19:52:40: DM_ProcessDevWaitQueue: Task mgmt in process devId=x

Então, isso ocorreu devido a um erro de hardware em nosso cluster.

Portanto, seria bom, se você pudesse verificar o arquivo principal e também se o utilitário ipmi estivesse lá, verifique o comando ipmiutil / ipmitool sel elist para verificar o problema.

Atenciosamente, VT