Ubuntu 12.04.2 LTS Server - aleatoriamente trava sem registro

2

Meu servidor trava aleatoriamente e fica sem resposta sem nenhum registro (dmesg, syslog, kern.log, boot.log e mensagens). Eu não posso prever quando isso vai acontecer. Às vezes, o servidor funciona bem por meses e, de repente, ele começa a acontecer novamente. Na última semana aconteceu mais de 8 vezes. Esta situação está acontecendo há mais de um ano.

O log do kernel é sempre o mesmo:

Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.3 fa:16:3e:4e:e0:d5
Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.3 fa:16:3e:4e:e0:d5 viaapp
Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.9 fa:16:3e:62:09:86
Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.9 fa:16:3e:62:09:86 web-sistemas
Jan 24 03:20:38 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.16 fa:16:3e:79:dd:f8
Jan 24 03Jan 24 03:22:47 voyager kernel: imklog 5.8.6, log source = /proc/kmsg started.
Jan 24 03:22:47 voyager rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="2040" x-info="http://www.rsyslog.com"] start
Jan 24 03:22:47 voyager rsyslogd: rsyslogd's groupid changed to 103
Jan 24 03:22:47 voyager rsyslogd: rsyslogd's userid changed to 101
Jan 24 03:22:47 voyager rsyslogd-2039: Could not open output pipe '/dev/xconsole' [try http://www.rsyslog.com/e/2039 ]
Jan 24 03:22:47 voyager kernel: [    0.000000] Initializing cgroup subsys cpuset
Jan 24 03:22:47 voyager kernel: [    0.000000] Initializing cgroup subsys cpu
Jan 24 03:22:47 voyager kernel: [    0.000000] Linux version 3.2.0-60-generic (buildd@toyol) (gcc version 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) ) #91-Ubuntu SMP Wed Feb 19 03:54:44 UTC 2014 (Ubuntu 3.2.0-60.91-generic 3.2.55)
Jan 24 03:22:47 voyager kernel: [    0.000000] Command line: BOOT_IMAGE=/vmlinuz-3.2.0-60-generic root=UUID=c8dba39e-4d36-4528-9432-d610fce72407 ro crashkernel=384M-2G:64M,2G-:128M console=tty1 console=ttyS0,115200n8

O servidor tem placa-mãe Intel S5500BC, CPU Intel Xeon E5630, 32 GB de RAM e 4x Seagate Barracuda 2TB 7200 RPMST2000DM001. Eu estou usando o Ubuntu 12.04.2 LTS com o kernel 3.2.0-60-genérico, e o disco rígido faz parte de um RAID 10 macio usando md. Também estou executando algumas máquinas virtuais usando kvm e libvirt.

No começo, achei que estava relacionado ao uso de E / S. Eu enfatizei a CPU, E / S, E / S de HDD e alocação de memória usando muitas ferramentas, incluindo dd, stress e alguns scripts que desenvolvi no bash / python. Eu nunca consegui replicar o problema.

Todos os discos rígidos passam em autotestes curtos e longos de smartctl. Não há mensagem de erro.

Eu também instalei o linux-crashdump, mas ele também não pode registrar nada. Eu corri um script a cada dois segundos para coletar a saída dos sensores e a temperatura parecia ok - abaixo de 55 graus Celsius.

Já substituí a placa-mãe, a RAM e os discos rígidos, mas o problema continua. Assim, eu acho que não é relacionado a hardware e por qualquer motivo o sistema operacional não pode gravar os logs. Eu também testei a RAM usando o memtest e ela passou com sucesso em quatro ciclos.

A única coisa que notei é que, quando estou executando um teste de estresse com stress , obtive o seguinte log: [28189.472043] INFO: tarefa kvm: 5058 bloqueada por mais de 120 segundos.

Eu habilitei o IPMI e ele responde quando o servidor trava. Eu usei para coletar sensores e também o log de eventos. Como sempre tem registros sobre a unidade de energia, eu já substituí a fonte de alimentação três vezes. O IPMI me poupa muito tempo de inatividade, já que eu o uso para reinicializar o servidor. O servidor está conectado a um no-break que possui mais 3 servidores conectados a ele. Nenhum dos outros servidores tem qualquer problema.

 bc3 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Power off/down | Asserted
 bc4 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Failure detected | Asserted
 bc5 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Power off/down | Deasserted
 bc6 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Failure detected | Deasserted
 bc7 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Non-critical going low  |     Deasserted | Reading 0
 bc8 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Critical going low  | Deasserted | Reading 0
 bc9 | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Non-critical going low  | Asserted | Reading 0 < Threshold 374 RPM
 bca | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Critical going low  | Asserted | Reading 0 < Threshold 330 RPM
 bcb | 01/22/2015 | 22:48:01 | System Event BIOS Evt Sensor | Timestamp Clock Sync |   Asserted
 bcc | 01/22/2015 | 22:48:02 | System Event BIOS Evt Sensor | Timestamp Clock Sync | Asserted
 bcd | 01/22/2015 | 22:48:43 | System Event BIOS Evt Sensor | OEM System boot event | Asserted
 bce | 01/22/2015 | 22:48:51 | Critical Interrupt PCIe Cor Sensor |  | Asserted

Às vezes, o servidor é reinicializado em vez de interrompido. Mas na maior parte do tempo ele trava e eu mesmo tenho que reiniciá-lo.

Ah, mais uma informação, o servidor às vezes trava durante a inicialização, antes mesmo de carregar o GRUB.

Você tem alguma sugestão do que está acontecendo ou o que eu posso fazer para ir mais longe neste problema?

    
por msbrogli 24.01.2015 / 15:52

1 resposta

0

Apenas para dar um feedback sobre esse problema. Eu também troquei os cabos SATA e o problema persistiu. Depois de rodar o memtest por mais de 24 horas, ele começou a aumentar o contador de erros.

Agora estou tentando descobrir qual módulo de memória é ruim.

-

O módulo de memória ruim foi substituído e agora vamos ver se o problema está resolvido. Espero que sim, mas não estou tão confiante porque já substituí os módulos de memória.

-

O servidor repentinamente reiniciou ontem à tarde. Não houve falta de energia e nenhum outro dispositivo foi reiniciado. Ainda estamos tentando descobrir onde está o problema.

    
por 28.01.2015 / 19:35