System Halt on REBOOT, Shutdown & Restarts como esperado

2

Recentemente passou de Centos 6.4 para Centos 6.5 . O sistema é Dell T410 Tower . Sempre que eu reinicializo, o sistema é executado através da postagem, passa nas Configurações do IPv4 e, em seguida, anuncia:

PCIe Training Error: Slot 1

system halted

Quando eu ctrl+alt+del daqui - recebi o mesmo erro (com certeza toda vez).

O log Dell ESM mostra: Falha geral após o vídeo.

Quando eu pressiono o botão liga / desliga, ligue de novo, o sistema inicializa como esperado.

O slot 1 possui um cartão nic que o sistema está usando. (Após a instalação inicial do Centos 6.4, a Broadcom nics estava me dando problemas de velocidade e latência, tentei resolver com drivers, mas não tive sorte, então adicionei essa outra placa nic (usa Realtek), que funcionou bem, sem problemas, até Atualização 6.5)

Eu ainda sou um pouco do noobie do Linux, eu não teria pensado que isso seria relacionado ao kernel, porque eu não acho que o kernel começou a carregar até a próxima tela. Neste ponto, parece que deve ser o kernel .

Estou executando 2.6.32-431.5.1.el6.x86_64 agora porque tive o mesmo problema com 2.6.32-431.11.2.el6.x86_64 PLUS problemas adicionais de montagem do CIFS, que foram embora com o downgrade.

uname -r
2.6.32-431.5.1.el6.x86_64

rpm -qa kernel 
kernel-2.6.32-358.23.2.el6.x86_64 
kernel-2.6.32-431.5.1.el6.x86_64 
kernel-2.6.32-358.el6.x86_64 
kernel-2.6.32-431.11.2.el6.x86_64 
kernel-2.6.32-358.14.1.el6.x86_64

Eu estava pensando em tentar ir mais além ao kernel 6.4 para ver se a reinicialização produz o mesmo resultado. Não sei quais problemas adicionais podem surgir ao tentar reverter apenas o kernel para a versão anterior (6.5 - > 6.4) & Se houver outras razões, eu não deveria. Eu acho que pode haver uma opção na BIOS (em algum lugar) para continuar depois de parar as mensagens ... mas se eu fizer isso, e houver um erro, parece que as chances são de que o nic não funcionará corretamente.

Este servidor atua como um servidor proxy para a maioria dos nossos desktops na rede, então eu só tenho timeframes limitados que eu posso desligar e testar teorias. O sistema parece estar funcionando bem agora, e desde que eu não reinicie manualmente, parece que ficaremos bem no estado atual, mas gostaríamos de saber o que diabos está acontecendo.

dmesg snippet:

udev: starting version 147
EDAC MC: Ver: 2.1.0 Feb 12 2014
bnx2: Broadcom NetXtreme II Gigabit Ethernet Driver bnx2 v2.2.3 (June 27, 2012)
  alloc irq_desc for 36 on node -1
  alloc kstat_irqs on node -1
bnx2 0000:01:00.0: PCI INT A -> GSI 36 (level, low) -> IRQ 36
bnx2 0000:01:00.0: setting latency timer to 64
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.0: eth0: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem da000000, IRQ 36, node addr a4:ba:db:12:39:24
  alloc irq_desc for 48 on node -1
  alloc kstat_irqs on node -1
bnx2 0000:01:00.1: PCI INT B -> GSI 48 (level, low) -> IRQ 48
bnx2 0000:01:00.1: setting latency timer to 64
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.1: eth1: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem dc000000, IRQ 48, node addr a4:ba:db:12:39:25
r8169 Gigabit Ethernet driver 2.3LK-NAPI loaded
  alloc irq_desc for 41 on node -1
  alloc kstat_irqs on node -1
r8169 0000:02:00.0: PCI INT A -> GSI 41 (level, low) -> IRQ 41
r8169 0000:02:00.0: setting latency timer to 64
  alloc irq_desc for 62 on node -1
  alloc kstat_irqs on node -1
r8169 0000:02:00.0: irq 62 for MSI/MSI-X
r8169 0000:02:00.0: eth2: RTL8168c/8111c at 0xffffc90000c76000, 00:e0:4d:1a:12:76, XID 1c2000c0 IRQ 62
r8169 0000:02:00.0: eth2: jumbo features [frames: 6128 bytes, tx checksumming: ko]
ACPI Error: No handler for Region [IPMI] (ffff8801ad4ec420) [IPMI] (20090903/evregion-319)
ACPI Error: Region IPMI(7) has no handler (20090903/exfldio-295)
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._GHL] (Node ffff8801ad4eb4c0), AE_NOT_EXIST
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._PMC] (Node ffff8801ad4eb560), AE_NOT_EXIST
ACPI Exception: AE_NOT_EXIST, Evaluating _PMC (20090903/power_meter-759)
    
por webaholik 14.04.2014 / 16:32

1 resposta

1

O slot em que o sistema está com problemas ou a própria NIC está tendo problemas após uma reinicialização. Uma vez que a energia foi cortada da placa e você iniciar a reinicialização do botão de energia, o estado da placa foi apagado e, portanto, pode inicializar OK a partir desse estado.

Acredite ou não, eu já vi problemas semelhantes no passado com hardware que não pode sair de um estado "quente", mas sim de botas frias.

De qualquer forma, procuraria substituir o hardware mais cedo, mais tarde.

EDIT # 1

Pesquisando o Manual de proprietários do Dell PowerEdge T410 há esta seção que mostra as várias mensagens de erro junto com sugestões sobre como resolvê-las.

trecho da página 50

De acordo com esta tabela, parece estar de acordo com o que eu sugeri. Eu desligaria o sistema e tentaria redefinir a NIC no slot um para ver se o erro / problema desaparece. Se isso não acontecer, você tem um NIC com falha ou o slot # 1 da placa-mãe está com defeito / falha.

    
por 14.04.2014 / 23:28