Após algumas horas de trabalho de correção, nosso servidor prolífico faz o cálculo com o LED System Healt 12 piscando, o que de acordo com a documentação ( link ) é o sinal de" Falha crítica do sistema detectada (processador, memória, regulador, evento térmico, ventilador, NMI) "(página 96).
O SSH é então perdido.
Podemos reiniciar e recuperar o ssh (não estou no local), mas não sei o que verificar então? Existe algum arquivo de log onde encontrar alguma informação?
Eu encontrei este guia: link , mas parece excessivo para mim.
Meu colega sugere que poderia ser uma sobrecarga de RAM + Swap que faz o servidor travar. Eu realmente não concordo com ele, já que estou preocupado, um problema de memória não levaria a uma falha crítica do sistema. Alguma ideia sobre este ponto?
Eu estou querendo saber se poderia haver qualquer relação com o meu post anterior: troca de servidor Linux antes que a memória esteja completamente cheia .
estamos no ubuntu 14.04.
PS: o servidor está em um porão, pode haver um pouco de condensação de água na manhã ...
EDIT
Folowing @Hennes observação, nós movemos o servidor de volta para a sala de estar. Mas depois de uma noite de cálculo, foi mais uma vez bliking com a luz vermelha: - (
Agora estou tentando entender meus arquivos de log.
Nós reiniciado o servidor esta manhã em torno de 09:44
Aqui estão os arquivos recentemente alterados:
Oqueprocurar,onde,paraobteralgumasinformaçõessobreerros?
Eutentei:
romain@pl:/var/log$catsyslog|greperrorDec2712:00:23plkernel:[1.053210][FirmwareWarn]:GHES:Pollintervalis0forgenerichardwareerrorsource:1,disabled.Dec2712:00:23plkernel:[6.740763]ata3.00:failedtoenableAA(error_mask=0x1)Dec2712:00:23plkernel:[6.741967]ata3.00:failedtoenableAA(error_mask=0x1)Dec2712:00:23plkernel:[7.082169]ata4.00:failedtoenableAA(error_mask=0x1)Dec2712:00:23plkernel:[7.112776]ata4.00:failedtoenableAA(error_mask=0x1)Dec2712:00:23plkernel:[9.905224]EXT4-fs(dm-0):re-mounted.Opts:errors=remount-roDec2711:52:18plkernel:[1.053048][FirmwareWarn]:GHES:Pollintervalis0forgenerichardwareerrorsource:1,disabled.Dec2711:52:18plkernel:[6.364768]ata3.00:failedtoenableAA(error_mask=0x1)Dec2711:52:18plkernel:[6.365903]ata3.00:failedtoenableAA(error_mask=0x1)Dec2711:52:18plkernel:[6.684685]ata4.00:failedtoenableAA(error_mask=0x1)Dec2711:52:18plkernel:[6.686080]ata4.00:failedtoenableAA(error_mask=0x1)Dec2711:52:18plkernel:[11.211120]EXT4-fs(dm-0):re-mounted.Opts:errors=remount-roDec2809:46:55plkernel:[1.051638][FirmwareWarn]:GHES:Pollintervalis0forgenerichardwareerrorsource:1,disabled.Dec2809:46:55plkernel:[6.348693]ata3.00:failedtoenableAA(error_mask=0x1)Dec2809:46:55plkernel:[6.349786]ata3.00:failedtoenableAA(error_mask=0x1)Dec2809:46:55plkernel:[6.699099]ata4.00:failedtoenableAA(error_mask=0x1)Dec2809:46:55plkernel:[6.731027]ata4.00:failedtoenableAA(error_mask=0x1)Dec2809:46:55plkernel:[8.959211]EXT4-fs(dm-0):re-mounted.Opts:errors=remount-ro
e:
romain@pl:/var/log$catdmesg|greperror[1.051638][FirmwareWarn]:GHES:Pollintervalis0forgenerichardwareerrorsource:1,disabled.[6.348693]ata3.00:failedtoenableAA(error_mask=0x1)[6.349786]ata3.00:failedtoenableAA(error_mask=0x1)[6.699099]ata4.00:failedtoenableAA(error_mask=0x1)[6.731027]ata4.00:failedtoenableAA(error_mask=0x1)[8.959211]EXT4-fs(dm-0):re-mounted.Opts:errors=remount-ro
->Aquieurealmentenãoentendoquaissãoosvaloresnaprimeiracolunacomo[6.731027]:éonúmerodesegundosdesdeoboot?
euverifiquei
romain@pl:/var/log$catsyslog|grepmemoryDec2712:00:23plkernel:[0.000000]Scanning1areasforlowmemorycorruptionDec2712:00:23plkernel:[0.000000]Basememorytrampolineat[ffff880000094000]94000size24576[...]Dec2712:00:23plkernel:[0.000000]init_memory_mapping:[mem0x100000000-0x61fffffff]Dec2712:00:23plkernel:[0.000000]EarlymemorynoderangesDec2712:00:23plkernel:[0.000000]PM:Registerednosavememory:[mem0x00000000-0x00000fff][...]Dec2712:00:23plkernel:[0.000000]PM:Registerednosavememory:[mem0xffc00000-0xffffffff]Dec2712:00:23plkernel:[0.019764]InitializingcgroupsubsysmemoryDec2712:00:23plkernel:[0.019992]FreeingSMPalternativesmemory:32K(ffffffff81e88000-ffffffff81e90000)Dec2712:00:23plkernel:[0.971501]Freeinginitrdmemory:20288K(ffff880035850000-ffff880036c20000)Dec2712:00:23plkernel:[0.972518]Scanningforlowmemorycorruptionevery60secondsDec2712:00:23plkernel:[6.154807]memorymemory67:hashmatchesDec2712:00:23plkernel:[6.205519]Freeingunusedkernelmemory:1412K(ffffffff81d27000-ffffffff81e88000)Dec2712:00:23plkernel:[6.234958]Freeingunusedkernelmemory:232K(ffff8800017c6000-ffff880001800000)Dec2712:00:23plkernel:[6.254602]Freeingunusedkernelmemory:336K(ffff880001bac000-ffff880001c00000)Dec2712:00:23plkernel:[9.739558]EDACi7core:Driverloaded,2memorycontroller(s)found.Dec2712:00:32plkernel:[20.152332]cgroup:docker-runc(2183)creatednestedcgroupforcontroller"memory" which has incomplete hierarchy support. Nested cgroups may change behavior in the future.
Dec 27 12:00:32 pl kernel: [ 20.152335] cgroup: "memory" requires setting use_hierarchy to 1 on the root
Dec 27 11:52:18 pl kernel: [ 0.000000] Scanning 1 areas for low memory corruption
Dec 27 11:52:18 pl kernel: [ 0.000000] Base memory trampoline at [ffff880000094000] 94000 size 24576
Dec 27 11:52:18 pl kernel: [ 0.000000] init_memory_mapping: [mem 0x00000000-0x000fffff]
[...]
Dec 27 11:52:18 pl kernel: [ 0.000000] init_memory_mapping: [mem 0x100000000-0x61fffffff]
Dec 27 11:52:18 pl kernel: [ 0.000000] Early memory node ranges
Dec 27 11:52:18 pl kernel: [ 0.000000] PM: Registered nosave memory: [mem 0x00000000-0x00000fff]
[...]
Dec 27 11:52:18 pl kernel: [ 0.000000] PM: Registered nosave memory: [mem 0xffc00000-0xffffffff]
Dec 27 11:52:18 pl kernel: [ 0.019779] Initializing cgroup subsys memory
Dec 27 11:52:18 pl kernel: [ 0.020005] Freeing SMP alternatives memory: 32K (ffffffff81e88000 - ffffffff81e90000)
Dec 27 11:52:18 pl kernel: [ 0.970708] Freeing initrd memory: 20288K (ffff880035850000 - ffff880036c20000)
Dec 27 11:52:18 pl kernel: [ 0.971734] Scanning for low memory corruption every 60 seconds
Dec 27 11:52:18 pl kernel: [ 5.854654] Freeing unused kernel memory: 1412K (ffffffff81d27000 - ffffffff81e88000)
Dec 27 11:52:18 pl kernel: [ 5.883624] Freeing unused kernel memory: 232K (ffff8800017c6000 - ffff880001800000)
Dec 27 11:52:18 pl kernel: [ 5.902731] Freeing unused kernel memory: 336K (ffff880001bac000 - ffff880001c00000)
Dec 27 11:52:18 pl kernel: [ 10.983190] EDAC i7core: Driver loaded, 2 memory controller(s) found.
Dec 27 11:52:25 pl kernel: [ 19.933483] cgroup: docker-runc (2140) created nested cgroup for controller "memory" which has incomplete hierarchy support. Nested cgroups may change behavior in the future.
Dec 27 11:52:25 pl kernel: [ 19.933486] cgroup: "memory" requires setting use_hierarchy to 1 on the root
Dec 28 09:46:55 pl kernel: [ 0.000000] Scanning 1 areas for low memory corruption
Dec 28 09:46:55 pl kernel: [ 0.000000] Base memory trampoline at [ffff880000094000] 94000 size 24576
Dec 28 09:46:55 pl kernel: [ 0.000000] init_memory_mapping: [mem 0x00000000-0x000fffff]
[...]
Dec 28 09:46:55 pl kernel: [ 0.000000] init_memory_mapping: [mem 0x100000000-0x51fffffff]
Dec 28 09:46:55 pl kernel: [ 0.000000] Early memory node ranges
Dec 28 09:46:55 pl kernel: [ 0.000000] PM: Registered nosave memory: [mem 0x00000000-0x00000fff]
[...]
Dec 28 09:46:55 pl kernel: [ 0.000000] PM: Registered nosave memory: [mem 0xffc00000-0xffffffff]
Dec 28 09:46:55 pl kernel: [ 0.020007] Initializing cgroup subsys memory
Dec 28 09:46:55 pl kernel: [ 0.020233] Freeing SMP alternatives memory: 32K (ffffffff81e88000 - ffffffff81e90000)
Dec 28 09:46:55 pl kernel: [ 0.970821] Freeing initrd memory: 20288K (ffff880035850000 - ffff880036c20000)
Dec 28 09:46:55 pl kernel: [ 0.971834] Scanning for low memory corruption every 60 seconds
Dec 28 09:46:55 pl kernel: [ 5.824432] Freeing unused kernel memory: 1412K (ffffffff81d27000 - ffffffff81e88000)
Dec 28 09:46:55 pl kernel: [ 5.853109] Freeing unused kernel memory: 232K (ffff8800017c6000 - ffff880001800000)
Dec 28 09:46:55 pl kernel: [ 5.871990] Freeing unused kernel memory: 336K (ffff880001bac000 - ffff880001c00000)
Dec 28 09:46:55 pl kernel: [ 8.826997] EDAC i7core: Driver loaded, 2 memory controller(s) found.
Dec 28 09:47:04 pl kernel: [ 19.154325] cgroup: docker-runc (2171) created nested cgroup for controller "memory" which has incomplete hierarchy support. Nested cgroups may change behavior in the future.
Dec 28 09:47:04 pl kernel: [ 19.154328] cgroup: "memory" requires setting use_hierarchy to 1 on the root
Também verifiquei 'fan', 'nmi', 'critical' no arquivo syslog, sem nenhuma saída.
Lembrei-me de algumas perguntas do stackoverflow em que as pessoas que copiam / colam arquivos em um site de logfile externo - não consigo lembrar o nome - estou pronto para colocar arquivos online se alguém estiver interessado.
Qualquer dica sobre onde procurar por qual palavra-chave é bem-vinda.
Usamos o servidor com docker e r-studio server no topo para o cálculo ML. Eu realmente duvido que o tipo de uso possa ser a fonte para este problema, mas em TI nós nunca sabemos, então eu preciso disso;)
Obrigado por qualquer ideia.