Coçando minha cabeça aqui. Espero que alguém possa me ajudar a solucionar problemas.
Eu tenho um servidor Dell PowerEdge SC1435 que estava sendo executado com uma versão anterior do Ubuntu por um tempo. (Acredito que era 13.10 servidor x64)
Eu recentemente reformatei o drive (SSD) e instalei o servidor Ubuntu 14.04.1 x64.
Tudo parecia bem durante a instalação, mas a máquina travou na primeira inicialização no final da saída do kernel, pouco antes de esperar que a tela fosse limpa e um prompt de logon aparecesse. Não houve erros óbvios no final da saída do kernel que vi. (Havia uma mensagem sobre "não usar o sensor térmico da CPU que não é confiável", mas que parece estar lá, independentemente de ele ser inicializado ou não)
Eu dei uns bons 5 minutos e forcei uma reinicialização. Para minha surpresa, ele iniciou o prompt de login em cerca de 1-2 segundos após a postagem do BIOS. Eu reiniciei novamente e pareceu fazer uma pausa por alguns segundos extras, onde pendia antes, mas seguiu para a tela de login. Reiniciando novamente, foi rápido novamente. Então, neste momento eu pensei que era apenas uma daquelas falhas aleatórias que eu nunca explicaria, então eu segui em frente.
Instalei alguns pacotes (exatamente os mesmos pacotes instalados na mesma versão do sistema operacional em outro hardware), atualizei o apt e dist-upgrade e, em seguida, reinicializei. Parecia que estava pendurado novamente, então fui até o datacenter e conectei um console apenas para obter uma tela em branco. Reinicialização forçada novamente. (também configurei o ipmi para reinicialização remota e me livrei do grub recordfail para que ele não esperasse que eu apertasse enter!)
Isso foi muito tarde na noite passada. Eu cheguei em casa, fiz algumas reinicializações sem nenhum problema, então fui para a cama.
Hoje eu fiz uma reinicialização novamente para verificá-lo e novamente ele caiu em algum lugar. Eu forço remotamente reiniciei.
Como neste ponto eu comecei a cavar um pouco mais e imediatamente notei algo realmente estranho.
top - 14:18:35 up 8 min, 1 user, load average: 1.00, 0.85, 0.45
Tasks: 148 total, 1 running, 147 sleeping, 0 stopped, 0 zombie
%Cpu(s): 0.1 us, 0.3 sy, 0.0 ni, 99.6 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem: 33013620 total, 338928 used, 32674692 free, 9740 buffers
KiB Swap: 3906556 total, 0 used, 3906556 free. 47780 cached Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 root 20 0 33508 2772 1404 S 0.0 0.0 0:03.82 init
2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd
3 root 20 0 0 0 0 S 0.0 0.0 0:00.00 ksoftirqd/0
5 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:0H
6 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kworker/u16:0
8 root 20 0 0 0 0 S 0.0 0.0 0:00.24 rcu_sched
9 root 20 0 0 0 0 S 0.0 0.0 0:00.02 rcuos/0
10 root 20 0 0 0 0 S 0.0 0.0 0:00.00 rcuos/1
11 root 20 0 0 0 0 S 0.0 0.0 0:00.00 rcuos/2
Este servidor está completamente inutilizado e ocioso, mas tem uma média de carga de 1 minuto exatamente igual a 1.00?
Enquanto observo os outros valores - os 5 minutos e os 15 minutos também parecem estar indo para 1,00, então eu suponho que todos eles chegarão a 1,00 em algum momento. (O "1 Running" é o processo principal)
Eu nunca tive isso antes e desde que eu não tenho idéia do que está causando a falha de inicialização, estou assumindo neste momento que os dois estão provavelmente relacionados.
O que eu gostaria de fazer é identificar (e possivelmente eliminar) o que está causando essa média de carga falsa e meu problema de falha.
Até agora, não consegui identificar qual processo poderia estar esperando por algum tipo de recurso para gerar essa média de carga.
Eu agradeceria muito se alguém pudesse me ajudar a tentar rastreá-lo.
top mostra todos os processos praticamente sempre dormindo. Algumas ocasionalmente aparecendo no topo, mas eu acho que é bem normal. O uso da CPU está mostrando, em sua maioria, 100% de IDLE, com quedas muito ocasionais de até 99%.
nmon não me mostra muito. tudo parece ocioso.
O iotop não mostra praticamente nenhum tipo de tráfego. (novamente, pontos muito ocasionais de acesso ao disco)
a frequência de interrupções parece baixa. abaixo de 100 / segundo do que eu posso ver.
Eu vi inúmeras discussões no google sugerindo isso:
echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us
.. sem efeito.
A RAM no servidor é ECC e as passagens de teste.
A instalação do servidor era 'mínima' (opção F4) com o servidor OpenSSH marcado durante a instalação.
Instalados alguns pacotes posteriormente incluindo vim, bcache-tools, utilitários-de-ponte, qemu, software-propriedades-comuns, open-iscsi, qemu-kvm, cpu-checker, socat, ntp e nodejs. (Pense que é sobre isso)
Eu tentei desativar e remover o módulo do kernel bcache. sem efeito.
parou de serviço iscsi .. sem efeito. (embora não haja absolutamente nada configurado neste servidor ainda)
Eu vou deixar isso lá antes que isso fique insanamente longo. Se alguém pudesse me ajudar a tentar descobrir isso, seria muito apreciado.
Felicidades,
James