Meu servidor trava aleatoriamente e fica sem resposta sem nenhum registro (dmesg, syslog, kern.log, boot.log e mensagens). Eu não posso prever quando isso vai acontecer. Às vezes, o servidor funciona bem por meses e, de repente, ele começa a acontecer novamente. Na última semana aconteceu mais de 8 vezes. Esta situação está acontecendo há mais de um ano.
O log do kernel é sempre o mesmo:
Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.3 fa:16:3e:4e:e0:d5
Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.3 fa:16:3e:4e:e0:d5 viaapp
Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.9 fa:16:3e:62:09:86
Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.9 fa:16:3e:62:09:86 web-sistemas
Jan 24 03:20:38 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.16 fa:16:3e:79:dd:f8
Jan 24 03Jan 24 03:22:47 voyager kernel: imklog 5.8.6, log source = /proc/kmsg started.
Jan 24 03:22:47 voyager rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="2040" x-info="http://www.rsyslog.com"] start
Jan 24 03:22:47 voyager rsyslogd: rsyslogd's groupid changed to 103
Jan 24 03:22:47 voyager rsyslogd: rsyslogd's userid changed to 101
Jan 24 03:22:47 voyager rsyslogd-2039: Could not open output pipe '/dev/xconsole' [try http://www.rsyslog.com/e/2039 ]
Jan 24 03:22:47 voyager kernel: [ 0.000000] Initializing cgroup subsys cpuset
Jan 24 03:22:47 voyager kernel: [ 0.000000] Initializing cgroup subsys cpu
Jan 24 03:22:47 voyager kernel: [ 0.000000] Linux version 3.2.0-60-generic (buildd@toyol) (gcc version 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) ) #91-Ubuntu SMP Wed Feb 19 03:54:44 UTC 2014 (Ubuntu 3.2.0-60.91-generic 3.2.55)
Jan 24 03:22:47 voyager kernel: [ 0.000000] Command line: BOOT_IMAGE=/vmlinuz-3.2.0-60-generic root=UUID=c8dba39e-4d36-4528-9432-d610fce72407 ro crashkernel=384M-2G:64M,2G-:128M console=tty1 console=ttyS0,115200n8
O servidor tem placa-mãe Intel S5500BC, CPU Intel Xeon E5630, 32 GB de RAM e 4x Seagate Barracuda 2TB 7200 RPMST2000DM001. Eu estou usando o Ubuntu 12.04.2 LTS com o kernel 3.2.0-60-genérico, e o disco rígido faz parte de um RAID 10 macio usando md. Também estou executando algumas máquinas virtuais usando kvm e libvirt.
No começo, achei que estava relacionado ao uso de E / S. Eu enfatizei a CPU, E / S, E / S de HDD e alocação de memória usando muitas ferramentas, incluindo dd, stress e alguns scripts que desenvolvi no bash / python. Eu nunca consegui replicar o problema.
Todos os discos rígidos passam em autotestes curtos e longos de smartctl. Não há mensagem de erro.
Eu também instalei o linux-crashdump, mas ele também não pode registrar nada. Eu corri um script a cada dois segundos para coletar a saída dos sensores e a temperatura parecia ok - abaixo de 55 graus Celsius.
Já substituí a placa-mãe, a RAM e os discos rígidos, mas o problema continua. Assim, eu acho que não é relacionado a hardware e por qualquer motivo o sistema operacional não pode gravar os logs. Eu também testei a RAM usando o memtest e ela passou com sucesso em quatro ciclos.
A única coisa que notei é que, quando estou executando um teste de estresse com stress
, obtive o seguinte log: [28189.472043] INFO: tarefa kvm: 5058 bloqueada por mais de 120 segundos.
Eu habilitei o IPMI e ele responde quando o servidor trava. Eu usei para coletar sensores e também o log de eventos. Como sempre tem registros sobre a unidade de energia, eu já substituí a fonte de alimentação três vezes. O IPMI me poupa muito tempo de inatividade, já que eu o uso para reinicializar o servidor. O servidor está conectado a um no-break que possui mais 3 servidores conectados a ele. Nenhum dos outros servidores tem qualquer problema.
bc3 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Power off/down | Asserted
bc4 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Failure detected | Asserted
bc5 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Power off/down | Deasserted
bc6 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Failure detected | Deasserted
bc7 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Non-critical going low | Deasserted | Reading 0
bc8 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Critical going low | Deasserted | Reading 0
bc9 | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Non-critical going low | Asserted | Reading 0 < Threshold 374 RPM
bca | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Critical going low | Asserted | Reading 0 < Threshold 330 RPM
bcb | 01/22/2015 | 22:48:01 | System Event BIOS Evt Sensor | Timestamp Clock Sync | Asserted
bcc | 01/22/2015 | 22:48:02 | System Event BIOS Evt Sensor | Timestamp Clock Sync | Asserted
bcd | 01/22/2015 | 22:48:43 | System Event BIOS Evt Sensor | OEM System boot event | Asserted
bce | 01/22/2015 | 22:48:51 | Critical Interrupt PCIe Cor Sensor | | Asserted
Às vezes, o servidor é reinicializado em vez de interrompido. Mas na maior parte do tempo ele trava e eu mesmo tenho que reiniciá-lo.
Ah, mais uma informação, o servidor às vezes trava durante a inicialização, antes mesmo de carregar o GRUB.
Você tem alguma sugestão do que está acontecendo ou o que eu posso fazer para ir mais longe neste problema?