DELL PowerEdge - Erro fatal do sistema durante a inicialização anterior

3

Meu servidor DELL R710 dedicado (CentOS 6.4) está reiniciando sozinho e aparecendo com o seguinte erro.

IssosignificaqueacaixanãopodeinicializarouokernelentrouempânicoduranteainicializaçãodoLinuxeoservidordealgumaformasabe?

Alguémpoderiaaconselharsobrediagnósticosouseesteéumproblemadehardwareedeveserpassadoparaodatacenterdequemeualugueiacaixa?Funcionabemhámeseseagoraosúltimosdoisdiassãoreinicializadosaleatoriamente.

Atualizar-Acaixacontinuaaserreinicializadaemumminuto,eapróximaentradadelinhamostraainicializaçãodokernelsemqualquerdesligamentoououtramensagemdeerro.

Jan1016:29:12squirtlekernel:Firewall:*TCP_INBlocked*IN=em1OUT=MAC=84:2b:2b:54:84:58:00:04:96:82:74:3e:08:00SRC=93.174.93.67DST=13.129.118.21LEN=40TOS=0x00PREC=0x00TTL=245ID=54321PROTO=TCPSPT=35003DPT=21320WINDOW=65535RES=0x00SYNURGP=0Jan1016:35:50squirtlekernel:Firewall:*UDP_INBlocked*IN=em1OUT=MAC=84:2b:2b:54:84:58:00:04:96:82:74:3e:08:00SRC=179.107.38.35DST=13.129.118.21LEN=443TOS=0x00PREC=0x00TTL=53ID=0DFPROTO=UDPSPT=5067DPT=5060LEN=423Jan1016:42:05squirtlekernel:imklog5.8.10,logsource=/proc/kmsgstarted.Jan1016:42:05squirtlersyslogd:[originsoftware="rsyslogd" swVersion="5.8.10" x-pid="1203" x-info="http://www.rsyslog.com"] start
Jan 10 16:42:05 squirtle kernel: Initializing cgroup subsys cpuset
Jan 10 16:42:05 squirtle kernel: Initializing cgroup subsys cpu
Jan 10 16:42:05 squirtle kernel: Linux version 2.6.32-431.3.1.el6.i686 ([email protected]) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-4) (GCC) ) #1 SMP Fri Jan 3 18:53:30 UTC 2014
Jan 10 16:42:05 squirtle kernel: KERNEL supported cpus:
Jan 10 16:42:05 squirtle kernel:  Intel GenuineIntel
Jan 10 16:42:05 squirtle kernel:  AMD AuthenticAMD
Jan 10 16:42:05 squirtle kernel:  NSC Geode by NSC
Jan 10 16:42:05 squirtle kernel:  Cyrix CyrixInstead
Jan 10 16:42:05 squirtle kernel:  Centaur CentaurHauls
Jan 10 16:42:05 squirtle kernel:  Transmeta GenuineTMx86
Jan 10 16:42:05 squirtle kernel:  Transmeta TransmetaCPU
Jan 10 16:42:05 squirtle kernel:  UMC UMC UMC UMC

Atualização 2

Eu tenho executado o utilitário stress no servidor nos últimos 4 dias, o servidor não foi reinicializado uma vez. Está maximizando todos os núcleos com 100% de CPU. Vou precisar verificar se o estresse está usando gravações de memória ou disco, mas quanto aos processadores, eles parecem OK.

    
por g18c 09.01.2014 / 12:12

2 respostas

2

Como o R710 data de 2009/2010, a falha dos componentes é sempre uma possibilidade.

Dell documentação (embora para o R410) diz:

Alert! System fatal error during previous boot.
An error caused the system to reboot.
Check other system messages for additional information for possible causes. 

Como a única outra mensagem que vejo é sobre a velocidade do ventilador, Eu acho que você deve examinar cuidadosamente e registrar a temperatura e sua variação.

Veja, por exemplo, Como monitorar & temperatura do hardware do servidor de registro & carregar .

Também não faria mal abrir o servidor, limpá-lo e verificar todos os contatos.

Você pode tentar usar as ferramentas como no artigo Como solucionar problemas de hardware no Linux e relatar aqui seus resultados.

    
por 12.01.2014 / 09:58
2

Essa mensagem está vindo do BIOS pedindo para você continuar. Isso significa que a placa-mãe viu algo que não gostou no nível do hardware. O sistema operacional não teria feito isso e teria registrado algo no arquivo de mensagens, se tivesse a chance de fazê-lo. Gostaria de solicitar um diag completo ser executado no servidor. o prompt F1 / F2 é geralmente um erro de configuração do BIOS ou alerta de falha de hardware.

    
por 12.01.2014 / 08:09