HP Proliant ficando inativo com erro crítico LED piscando - e depois?

0

Após algumas horas de trabalho de correção, nosso servidor prolífico faz o cálculo com o LED System Healt 12 piscando, o que de acordo com a documentação ( link ) é o sinal de" Falha crítica do sistema detectada (processador, memória, regulador, evento térmico, ventilador, NMI) "(página 96).

O SSH é então perdido. Podemos reiniciar e recuperar o ssh (não estou no local), mas não sei o que verificar então? Existe algum arquivo de log onde encontrar alguma informação?

Eu encontrei este guia: link , mas parece excessivo para mim.

Meu colega sugere que poderia ser uma sobrecarga de RAM + Swap que faz o servidor travar. Eu realmente não concordo com ele, já que estou preocupado, um problema de memória não levaria a uma falha crítica do sistema. Alguma ideia sobre este ponto?

Eu estou querendo saber se poderia haver qualquer relação com o meu post anterior: troca de servidor Linux antes que a memória esteja completamente cheia .

estamos no ubuntu 14.04.

PS: o servidor está em um porão, pode haver um pouco de condensação de água na manhã ...

EDIT Folowing @Hennes observação, nós movemos o servidor de volta para a sala de estar. Mas depois de uma noite de cálculo, foi mais uma vez bliking com a luz vermelha: - (

Agora estou tentando entender meus arquivos de log. Nós reiniciado o servidor esta manhã em torno de 09:44 Aqui estão os arquivos recentemente alterados:

Oqueprocurar,onde,paraobteralgumasinformaçõessobreerros?

Eutentei:

romain@pl:/var/log$catsyslog|greperrorDec2712:00:23plkernel:[1.053210][FirmwareWarn]:GHES:Pollintervalis0forgenerichardwareerrorsource:1,disabled.Dec2712:00:23plkernel:[6.740763]ata3.00:failedtoenableAA(error_mask=0x1)Dec2712:00:23plkernel:[6.741967]ata3.00:failedtoenableAA(error_mask=0x1)Dec2712:00:23plkernel:[7.082169]ata4.00:failedtoenableAA(error_mask=0x1)Dec2712:00:23plkernel:[7.112776]ata4.00:failedtoenableAA(error_mask=0x1)Dec2712:00:23plkernel:[9.905224]EXT4-fs(dm-0):re-mounted.Opts:errors=remount-roDec2711:52:18plkernel:[1.053048][FirmwareWarn]:GHES:Pollintervalis0forgenerichardwareerrorsource:1,disabled.Dec2711:52:18plkernel:[6.364768]ata3.00:failedtoenableAA(error_mask=0x1)Dec2711:52:18plkernel:[6.365903]ata3.00:failedtoenableAA(error_mask=0x1)Dec2711:52:18plkernel:[6.684685]ata4.00:failedtoenableAA(error_mask=0x1)Dec2711:52:18plkernel:[6.686080]ata4.00:failedtoenableAA(error_mask=0x1)Dec2711:52:18plkernel:[11.211120]EXT4-fs(dm-0):re-mounted.Opts:errors=remount-roDec2809:46:55plkernel:[1.051638][FirmwareWarn]:GHES:Pollintervalis0forgenerichardwareerrorsource:1,disabled.Dec2809:46:55plkernel:[6.348693]ata3.00:failedtoenableAA(error_mask=0x1)Dec2809:46:55plkernel:[6.349786]ata3.00:failedtoenableAA(error_mask=0x1)Dec2809:46:55plkernel:[6.699099]ata4.00:failedtoenableAA(error_mask=0x1)Dec2809:46:55plkernel:[6.731027]ata4.00:failedtoenableAA(error_mask=0x1)Dec2809:46:55plkernel:[8.959211]EXT4-fs(dm-0):re-mounted.Opts:errors=remount-ro

e:

romain@pl:/var/log$catdmesg|greperror[1.051638][FirmwareWarn]:GHES:Pollintervalis0forgenerichardwareerrorsource:1,disabled.[6.348693]ata3.00:failedtoenableAA(error_mask=0x1)[6.349786]ata3.00:failedtoenableAA(error_mask=0x1)[6.699099]ata4.00:failedtoenableAA(error_mask=0x1)[6.731027]ata4.00:failedtoenableAA(error_mask=0x1)[8.959211]EXT4-fs(dm-0):re-mounted.Opts:errors=remount-ro

->Aquieurealmentenãoentendoquaissãoosvaloresnaprimeiracolunacomo[6.731027]:éonúmerodesegundosdesdeoboot?

euverifiquei

romain@pl:/var/log$catsyslog|grepmemoryDec2712:00:23plkernel:[0.000000]Scanning1areasforlowmemorycorruptionDec2712:00:23plkernel:[0.000000]Basememorytrampolineat[ffff880000094000]94000size24576[...]Dec2712:00:23plkernel:[0.000000]init_memory_mapping:[mem0x100000000-0x61fffffff]Dec2712:00:23plkernel:[0.000000]EarlymemorynoderangesDec2712:00:23plkernel:[0.000000]PM:Registerednosavememory:[mem0x00000000-0x00000fff][...]Dec2712:00:23plkernel:[0.000000]PM:Registerednosavememory:[mem0xffc00000-0xffffffff]Dec2712:00:23plkernel:[0.019764]InitializingcgroupsubsysmemoryDec2712:00:23plkernel:[0.019992]FreeingSMPalternativesmemory:32K(ffffffff81e88000-ffffffff81e90000)Dec2712:00:23plkernel:[0.971501]Freeinginitrdmemory:20288K(ffff880035850000-ffff880036c20000)Dec2712:00:23plkernel:[0.972518]Scanningforlowmemorycorruptionevery60secondsDec2712:00:23plkernel:[6.154807]memorymemory67:hashmatchesDec2712:00:23plkernel:[6.205519]Freeingunusedkernelmemory:1412K(ffffffff81d27000-ffffffff81e88000)Dec2712:00:23plkernel:[6.234958]Freeingunusedkernelmemory:232K(ffff8800017c6000-ffff880001800000)Dec2712:00:23plkernel:[6.254602]Freeingunusedkernelmemory:336K(ffff880001bac000-ffff880001c00000)Dec2712:00:23plkernel:[9.739558]EDACi7core:Driverloaded,2memorycontroller(s)found.Dec2712:00:32plkernel:[20.152332]cgroup:docker-runc(2183)creatednestedcgroupforcontroller"memory" which has incomplete hierarchy support. Nested cgroups may change behavior in the future.
Dec 27 12:00:32 pl kernel: [   20.152335] cgroup: "memory" requires setting use_hierarchy to 1 on the root
Dec 27 11:52:18 pl kernel: [    0.000000] Scanning 1 areas for low memory corruption
Dec 27 11:52:18 pl kernel: [    0.000000] Base memory trampoline at [ffff880000094000] 94000 size 24576
Dec 27 11:52:18 pl kernel: [    0.000000] init_memory_mapping: [mem 0x00000000-0x000fffff]
[...]
Dec 27 11:52:18 pl kernel: [    0.000000] init_memory_mapping: [mem 0x100000000-0x61fffffff]
Dec 27 11:52:18 pl kernel: [    0.000000] Early memory node ranges
Dec 27 11:52:18 pl kernel: [    0.000000] PM: Registered nosave memory: [mem 0x00000000-0x00000fff]
[...]
Dec 27 11:52:18 pl kernel: [    0.000000] PM: Registered nosave memory: [mem 0xffc00000-0xffffffff]
Dec 27 11:52:18 pl kernel: [    0.019779] Initializing cgroup subsys memory
Dec 27 11:52:18 pl kernel: [    0.020005] Freeing SMP alternatives memory: 32K (ffffffff81e88000 - ffffffff81e90000)
Dec 27 11:52:18 pl kernel: [    0.970708] Freeing initrd memory: 20288K (ffff880035850000 - ffff880036c20000)
Dec 27 11:52:18 pl kernel: [    0.971734] Scanning for low memory corruption every 60 seconds
Dec 27 11:52:18 pl kernel: [    5.854654] Freeing unused kernel memory: 1412K (ffffffff81d27000 - ffffffff81e88000)
Dec 27 11:52:18 pl kernel: [    5.883624] Freeing unused kernel memory: 232K (ffff8800017c6000 - ffff880001800000)
Dec 27 11:52:18 pl kernel: [    5.902731] Freeing unused kernel memory: 336K (ffff880001bac000 - ffff880001c00000)
Dec 27 11:52:18 pl kernel: [   10.983190] EDAC i7core: Driver loaded, 2 memory controller(s) found.
Dec 27 11:52:25 pl kernel: [   19.933483] cgroup: docker-runc (2140) created nested cgroup for controller "memory" which has incomplete hierarchy support. Nested cgroups may change behavior in the future.
Dec 27 11:52:25 pl kernel: [   19.933486] cgroup: "memory" requires setting use_hierarchy to 1 on the root
Dec 28 09:46:55 pl kernel: [    0.000000] Scanning 1 areas for low memory corruption
Dec 28 09:46:55 pl kernel: [    0.000000] Base memory trampoline at [ffff880000094000] 94000 size 24576
Dec 28 09:46:55 pl kernel: [    0.000000] init_memory_mapping: [mem 0x00000000-0x000fffff]
[...]
Dec 28 09:46:55 pl kernel: [    0.000000] init_memory_mapping: [mem 0x100000000-0x51fffffff]
Dec 28 09:46:55 pl kernel: [    0.000000] Early memory node ranges
Dec 28 09:46:55 pl kernel: [    0.000000] PM: Registered nosave memory: [mem 0x00000000-0x00000fff]
[...]
Dec 28 09:46:55 pl kernel: [    0.000000] PM: Registered nosave memory: [mem 0xffc00000-0xffffffff]
Dec 28 09:46:55 pl kernel: [    0.020007] Initializing cgroup subsys memory
Dec 28 09:46:55 pl kernel: [    0.020233] Freeing SMP alternatives memory: 32K (ffffffff81e88000 - ffffffff81e90000)
Dec 28 09:46:55 pl kernel: [    0.970821] Freeing initrd memory: 20288K (ffff880035850000 - ffff880036c20000)
Dec 28 09:46:55 pl kernel: [    0.971834] Scanning for low memory corruption every 60 seconds
Dec 28 09:46:55 pl kernel: [    5.824432] Freeing unused kernel memory: 1412K (ffffffff81d27000 - ffffffff81e88000)
Dec 28 09:46:55 pl kernel: [    5.853109] Freeing unused kernel memory: 232K (ffff8800017c6000 - ffff880001800000)
Dec 28 09:46:55 pl kernel: [    5.871990] Freeing unused kernel memory: 336K (ffff880001bac000 - ffff880001c00000)
Dec 28 09:46:55 pl kernel: [    8.826997] EDAC i7core: Driver loaded, 2 memory controller(s) found.
Dec 28 09:47:04 pl kernel: [   19.154325] cgroup: docker-runc (2171) created nested cgroup for controller "memory" which has incomplete hierarchy support. Nested cgroups may change behavior in the future.
Dec 28 09:47:04 pl kernel: [   19.154328] cgroup: "memory" requires setting use_hierarchy to 1 on the root

Também verifiquei 'fan', 'nmi', 'critical' no arquivo syslog, sem nenhuma saída.

Lembrei-me de algumas perguntas do stackoverflow em que as pessoas que copiam / colam arquivos em um site de logfile externo - não consigo lembrar o nome - estou pronto para colocar arquivos online se alguém estiver interessado.

Qualquer dica sobre onde procurar por qual palavra-chave é bem-vinda.

Usamos o servidor com docker e r-studio server no topo para o cálculo ML. Eu realmente duvido que o tipo de uso possa ser a fonte para este problema, mas em TI nós nunca sabemos, então eu preciso disso;)

Obrigado por qualquer ideia.

    
por Romain Jouin 27.12.2016 / 11:19

1 resposta

1

Assumindo que seu sistema é o ML150 G6 mencionado na documentação que você vinculou, deixe-me strongmente pedir que você configure e use a funcionalidade de gerenciamento do Lights Out-100 no sistema.

Um tutorial básico pode ser encontrado aqui . Uma vez que você tenha acesso ao gerenciamento do Lights Out-100 (eu recomendaria usar a interface web até que você esteja mais familiarizado com o que o LO100 oferece e como você o usa), então veja especialmente as páginas 28-32 desse mesmo documento ; Mostra como você pode ver em tempo real sensores e informações de eventos para o seu sistema. Muitas vezes, se um problema de hardware estiver causando redefinições, ele será listado no Log de eventos do sistema e, ao encontrá-lo, você terá uma ideia do que está acontecendo com a sua máquina. O Log de Eventos do Sistema deve estar capturando seus dados, independentemente de você ter tocado no LO100 ou não, então, assim que chegar lá, ele deverá ter algo interessante para contar.

Grande parte da mesma informação pode ser obtida através do seu sistema operacional, via / var / log / messages (que você já tentou sem muito sucesso) ou através das ferramentas Insight da HP, que estão disponíveis para instalação em alguns sabores do Linux. (veja link para um bom ponto de partida para obter algumas dessas ferramentas). Infelizmente, nem todos os eventos são visíveis nos logs do sistema, pois são específicos do hardware e os agentes da HP, e não o kernel, são os instrumentos necessários.

Dito isto, você também pode ver se o mcelog está instalado e em execução; ele pode capturar alguns eventos de hardware e geralmente registra algo no log de mensagens quando captura um evento. Ele também geralmente registra as informações do evento em um log separado ou as mantém na memória para que você possa consultá-las com o comando mcelog. Vale a pena procurar mcelog no seu log de mensagens ou procurar se você tiver um arquivo /var/log/mcelog atualizado recentemente.

    
por 31.12.2016 / 12:09