O DRBD continua travando sobre o link saturado

2

Sob alta E / S, o DRBD irá travar e derrubar o servidor; existe de qualquer maneira para otimizar o DRBD para impedir que aconteça novamente. listado abaixo é minha configuração atual, erros e especificações. Se você precisar de mais alguma informação, por favor me avise. Desde já, obrigado.

Última configuração do drbd (mesma configuração do secundário):

[root@23 ~]# cat /etc/drbd.d/drbd0.res
resource drbd0 {
startup {
   degr-wfc-timeout 30;    # default is 2 minutes.
 }
 disk {
   on-io-error   detach;
   fencing dont-care;
   disk-barrier no;
   disk-flushes no;
   al-extents 3389;
 }
 net {
 max-buffers 8000;
 max-epoch-size 8000;
 sndbuf-size 512k;
 unplug-watermark 16;
 after-sb-1pri discard-secondary;
}

on 23 {
   device     /dev/drbd0;
   disk       /dev/sdb1;
   address    10.251.30.148:7789;
   flexible-meta-disk  internal;
 }

    on 23-t2 {
   device     /dev/drbd0;
   disk       /dev/sdb1;
   address    10.48.25.66:7789;
   flexible-meta-disk  internal;
 }

}

Erro após falha:

"echo 0 > proc/sys/kernel/hung_task_timeout_secs" disables this message
INFO: task drbd_w_drbd1:2412 blocked for more that 120 seconds 
"echo 0 > proc/sys/kernel/hung_task_timeout_secs" disables this message
INFO: task master:2506 blocked for more that 120 seconds 
"echo 0 > proc/sys/kernel/hung_task_timeout_secs" disables this message
INFO: task java:2653 blocked for more that 120 seconds 
"echo 0 > proc/sys/kernel/hung_task_timeout_secs" disables this message
INFO: task jbd2/drbd1-8:2234 blocked for more that 120 seconds 
"echo 0 > proc/sys/kernel/hung_task_timeout_secs" disables this message
INFO: task cdpserver:2380 blocked for more that 120 seconds
"echo 0 > proc/sys/kernel/hung_task_timeout_secs" disables this message
INFO: task cdpserver:2396 blocked for more that 120 seconds
"echo 0 > proc/sys/kernel/hung_task_timeout_secs" disables this message
INFO: task cdpserver:2409 blocked for more that 120 seconds
"echo 0 > proc/sys/kernel/hung_task_timeout_secs" disables this message
INFO: task cdpserver:2416 blocked for more that 120 seconds
"echo 0 > proc/sys/kernel/hung_task_timeout_secs" disables this message
BUG: soft lockup - CPU#10 stuck for 67s! [scsi_eh_6:616]
BUG: soft lockup - CPU#10 stuck for 67s! [scsi_eh_6:616]
aacraid: acc_fib_send: first asynshronous command timed out 
Usually a result of a PCI interrup routing problem"
update mother board BIOS or consider utilizing one of
the SAFE mode kernel option (acpi, apic etc)

Configuração atual:

CentOS release 6.3
2.6.32-279.5.2.el6.x86_64
drbd-8.4.1-1.el6.x86_64
2XE5620
12GM of mem
Adaptec 5805
/dev/drbd0             15T
/dev/drbd1             15T
    
por Buckie Fairweather 02.10.2012 / 23:43

1 resposta

0

Você ainda não explicou o que significa "bater" neste contexto. Nas suas mensagens "depois do crash", certamente parece que o DRBD ainda está em execução. O que cat /proc/drbd diz após o evento? O que é de ps -ef|grep -i [d]rbd ?

De qualquer forma, parece que seus discos e / ou controladora de armazenamento não estão tendo bom desempenho para sustentar o alto carregamento de I / O e, portanto, fazer com que o sistema aguarde muito tempo enquanto o descarregamento é gravado no disco. Se esse for o caso, então isso é um problema com sua configuração de hardware e não com o DRBD. Mas, para ter certeza, você pode querer levar isso para a lista de discussão do DRBD.

    
por 06.10.2012 / 00:40