Por que minha caixa de Linux é reiniciada aleatoriamente?

0

Recentemente, tive uma falha na matriz raid5 (duas das quatro unidades falharam) em uma máquina sem cabeça que tenho em um armário que funciona como um servidor de arquivos. Eu não tinha um monitoramento adequado, então perdi o fato de que o primeiro havia falhado.

Eu substituí as duas unidades e as reformei como raid6 com XFS .

Para o monitoramento, eu configurei mdmonitor e smartd (configuração abaixo).

Anteriormente, o sistema funcionava por meses sem qualquer instabilidade (ele foi executado por 6 meses com a primeira falha na unidade!). Agora, no entanto, ele começou a reinicializar e não consigo descobrir o que está causando isso.

AFAIK, a única alteração no sistema, é o fato de eu ter alterado de raid5/ext4 para raid6/xfs e ativado mdmonitor e smartd .

Você pode ver que está reiniciando muito!

last reboot:

reboot   system boot  3.9.10-100.fc17. Tue Jun  3 13:36 - 14:23  (00:46)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 12:26 - 14:23  (01:56)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 10:20 - 14:23  (04:02)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 09:07 - 14:23  (05:15)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 07:58 - 14:23  (06:24)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 06:49 - 14:23  (07:33)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 05:35 - 14:23  (08:47)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 04:27 - 14:23  (09:55)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 03:17 - 14:23  (11:05)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 02:22 - 14:23  (12:00)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 01:12 - 14:23  (13:10)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 00:04 - 14:23  (14:19)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 22:51 - 14:23  (15:32)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 21:29 - 14:23  (16:53)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 20:15 - 14:23  (18:07)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 19:01 - 14:23  (19:21)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 16:26 - 14:23  (21:56)    

Aqui está um trecho de /var/log/messages do tempo de uma reinicialização desconhecida:

/var/log/messages:

09:38:15 smartd[641]: Device: /dev/sda [SAT], SMART Usage Attribute: 188 Command_Timeout changed from 99 to 100
09:38:17 smartd[641]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 99 to 100
09:54:57 kernel: [ 2848.075773] Clocksource tsc unstable (delta = -631754440 ns)
09:54:57 kernel: [ 2848.076234] Switching to clocksource hpet
10:08:15 smartd[641]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 62 to 61
10:08:15 smartd[641]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 38 to 39
10:13:12 dbus-daemon[694]: dbus[694]: [system] Activating service name='org.freedesktop.PackageKit' (using servicehelper)
10:13:12 dbus[694]: [system] Activating service name='org.freedesktop.PackageKit' (using servicehelper)
10:13:12 dbus-daemon[694]: dbus[694]: [system] Successfully activated service 'org.freedesktop.PackageKit'
10:13:12 dbus[694]: [system] Successfully activated service 'org.freedesktop.PackageKit'
10:20:55 kernel: imklog 5.8.10, log source = /proc/kmsg started.
10:20:55 rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="622" x-info="http://www.rsyslog.com"] start
10:20:55 kernel: [    0.000000] Initializing cgroup subsys cpuset
10:20:55 kernel: [    0.000000] Initializing cgroup subsys cpu
10:20:55 kernel: [    0.000000] Linux version 3.9.10-100.fc17.x86_64 ([email protected]) (gcc version 4.7.2 20120921 (Red Hat 4.7.2-2) (GCC) ) #1 SMP Sun Jul 14 01
:31:27 UTC 2013

/etc/mdadm.conf:

ARRAY /dev/md0 metadata=1.2 name=nas:0 UUID=05f5ca2c:db826606:c2ae0648:2da1b4a0
MAILADDR ...
MAILFROM ...

/etc/smartd.conf: (retirado de aqui )

DEVICESCAN
 -a              \ # Implies all standard testing and reporting.
 -n standby,10,q \ # Don't spin up disk if it is currently spun down
                 \ #   unless it is 10th attempt in a row. 
                 \ #   Don't report unsuccessful attempts anyway.
 -o on           \ # Automatic offline tests (usually every 4 hours).
 -S on           \ # Attribute autosave (I don't really understand
                 \ #   what it is for. If you can explain it to me
                 \ #   please drop me a line.
 -R 194          \ # Show real temperature in the logs.
 -R 231          \ # The same as above.
 -I 194          \ # Ignore temperature attribute changes
 -W 3,50,50      \ # Notify if the temperature changes 3 degrees
                 \ #   comparing to the last check or if
                 \ #   the temperature exceeds 50 degrees.
 -s (S/../.././02|L/../../1/22) \ # short test: every day between 2-3am
                                \ # long test every Monday between 10pm-2am
                                \ # (Long test takes a lot of time
                                \ # and it should be finished before
                                \ # daily short test starts.
                                \ # At 3am every day this disk will be
                                \ # utilized heavily as a backup storage)
 -m root         \ # To whom we should send mails.
 -M exec /usr/libexec/smartmontools/smartdnotify

Alguém tem algum insight sobre o que está causando a reinicialização?

Nota:

Em uma nota lateral, a segunda linha do log de mensagens alude a outra falha de unidade?

SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 99 to 100

Considerando que os quatro drives originais (dos quais dois falharam) foram comprados ao mesmo tempo, eu acho que os dois restantes também podem estar perto do fracasso?

    
por Steve Lorimer 03.06.2014 / 02:41

0 respostas