Reinicialização espontânea do servidor Ubuntu

0

Eu tenho dois servidores 12.04 do Ubuntu (xeon e3). Às vezes (vários dias), cada servidor é reinicializado espontaneamente. HDDs e outros hardwares estão ok.

Qual arquivo de log pode ajudar a encontrar um motivo para o problema?

ATUALIZADO

hardware: processador xeon e3, placa-mãe do servidor intel, 32gb ddr3 ecc, ataque mdadm espelho hdd para sistema, ataque mdadm ssd para banco de dados (postgres).

Ambos os servidores possuem componentes similares (não idênticos). Inteligente está OK. Parece que o problema está no software. O processo e o banco de dados do Python estão sendo executados nesses servidores.

Syslog (tempo de reinicialização):

Aug 23 13:42:23 xeon hddtemp[1411]: /dev/sdc: WDC WD15NPVT-00Z2TT0: 34 C
Aug 23 13:42:23 xeon hddtemp[1411]: /dev/sdd: WDC WD15NPVT-00Z2TT0: 34 C
Aug 23 13:43:24 xeon hddtemp[1411]: /dev/sdc: WDC WD15NPVT-00Z2TT0: 34 C
Aug 23 13:43:24 xeon hddtemp[1411]: /dev/sdd: WDC WD15NPVT-00Z2TT0: 34 C
Aug 23 13:44:14 xeon sensord: Chip: acpitz-virtual-0
Aug 23 13:44:14 xeon sensord: Adapter: Virtual device
Aug 23 13:44:14 xeon sensord:   temp1: 27.8 C
Aug 23 13:44:14 xeon sensord:   temp2: 29.8 C
Aug 23 13:44:14 xeon sensord: Chip: coretemp-isa-0000
Aug 23 13:44:14 xeon sensord: Adapter: ISA adapter
Aug 23 13:44:14 xeon sensord:   Physical id 0: 37.0 C
Aug 23 13:44:14 xeon sensord:   Core 0: 37.0 C
Aug 23 13:44:14 xeon sensord:   Core 1: 37.0 C
Aug 23 13:44:14 xeon sensord:   Core 2: 37.0 C
Aug 23 13:44:14 xeon sensord:   Core 3: 37.0 C
Aug 23 13:44:24 xeon hddtemp[1411]: /dev/sdc: WDC WD15NPVT-00Z2TT0: 34 C
Aug 23 13:44:24 xeon hddtemp[1411]: /dev/sdd: WDC WD15NPVT-00Z2TT0: 34 C
Aug 23 13:47:01 xeon kernel: imklog 5.8.6, log source = /proc/kmsg started.
Aug 23 13:47:01 xeon rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="582" x-info="http://www.rsyslog.com"] start
Aug 23 13:47:01 xeon rsyslogd: rsyslogd's groupid changed to 103
Aug 23 13:47:01 xeon rsyslogd: rsyslogd's userid changed to 101
Aug 23 13:47:00 xeon rsyslogd-2039: Could not open output pipe '/dev/xconsole' [try http://www.rsyslog.com/e/2039 ]
Aug 23 13:47:01 xeon kernel: [    0.000000] Initializing cgroup subsys cpuset
Aug 23 13:47:01 xeon kernel: [    0.000000] Initializing cgroup subsys cpu
Aug 23 13:47:01 xeon kernel: [    0.000000] Initializing cgroup subsys cpuacct
Aug 23 13:47:01 xeon kernel: [    0.000000] Linux version 3.11.0-26-generic (buildd@komainu) (gcc version 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) ) #45~precise1-Ubuntu SMP Tue Jul 15 04:02:35 UTC 2014 (Ubuntu 3.11.0-26.45~precise1-generic 3.11.10.12)
Aug 23 13:47:01 xeon kernel: [    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-3.11.0-26-generic root=UUID=0daa7f53-6c74-47d2-873e-ebd339cd39b0 ro splash quiet vt.handoff=7
Aug 23 13:47:01 xeon kernel: [    0.000000] KERNEL supported cpus:
Aug 23 13:47:01 xeon kernel: [    0.000000]   Intel GenuineIntel
Aug 23 13:47:01 xeon kernel: [    0.000000]   AMD AuthenticAMD
Aug 23 13:47:01 xeon kernel: [    0.000000]   Centaur CentaurHauls
Aug 23 13:47:01 xeon kernel: [    0.000000] e820: BIOS-provided physical RAM map:
Aug 23 13:47:01 xeon kernel: [    0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009bbff] usable
Aug 23 13:47:01 xeon kernel: [    0.000000] BIOS-e820: [mem 0x000000000009bc00-0x000000000009ffff] reserved

Dmseg - nada de estranho.

    
por user1941407 24.08.2014 / 21:26

1 resposta

0

Isso cheira a um problema de hardware. Se você tivesse um problema de software e o software estivesse causando uma reinicialização, você teria dados de registro de algum tipo nele. Mesmo no caso de um kernel panic, você teria alguns dados de log escritos em algum lugar (provavelmente dmesg). Não há claramente nada nos logs, eles apenas terminam e começam com uma nova inicialização.

Não ter dados de registro significa que seu sistema não pôde gravar nada no disco. Isso significa uma das duas coisas: seus discos rígidos não estavam disponíveis, ou seu sistema de repente perdeu energia.

Verifique se seus servidores possuem fontes de energia adequadas. Se você tem UPS, verifique se eles estão ok. Geralmente, esse é o ponto de falha quando vários servidores apresentam esse problema ao mesmo tempo.

    
por cscracker 25.08.2014 / 04:03