Servidor Ubuntu 14.04 possivelmente vai dormir? [fechadas]

2

Eu tenho um servidor web (apache) rodando no Ubuntu 14.04. Tem funcionado bem por anos. É uma VM em um host vmware. Cerca de um mês atrás, nós o restauramos para um novo host vmware a partir de um backup porque o host original travou.

Ontem, percebi que não estava atendendo a solicitações. Não é um servidor que eu monitore, então é possível que ele esteja agindo desde a restauração. Eu ssh'd bem, mas quando executando comandos como "top" apenas trava. Eu posso ctrl-c para voltar ao prompt, mas é sobre isso.

Sendo que o ssh não estava funcionando, abrimos o console via vmware e descobrimos que poderíamos executar comandos normalmente. Então nós fizemos um "reboot sudo". Depois de reiniciado, o ssh estava funcionando bem novamente. O Apache também começou a atender solicitações.

De lá eu configurei um monitor para fazer uma solicitação da web a cada cinco minutos para o servidor. Pouco tempo depois, 10-15min, recebi um alerta de que o site não estava respondendo. Mais uma vez o mesmo cenário ocorreu - não pode fazer nada do ssh, mas usando o console, podemos reiniciar. Infelizmente ainda não encontrei um padrão com a duração entre a reinicialização e a re-ocorrência.

O ssh está exibindo um comportamento estranho, mas o console funciona normalmente. Então, eu vou manter o foco no tópico que parece que o servidor vai dormir ou esbarrar depois de um certo período de tempo.

Com isso sendo dito enquanto este problema está ocorrendo, nós rodamos "top" no console e vemos atividade mínima de cpu, menos de 1% de uso. O mesmo vale para a memória. Estou esperando que o problema aconteça novamente para que eu possa ver o que a iotop mostra. Mas, por enquanto, não parece que esteja atrapalhando.

Então, meu próximo palpite é que ele vai dormir. Se for esse o caso alguém pode me apontar para onde eu olharia no servidor Ubuntu para descobrir se ele está configurado para ir dormir? Ou alguém tem outras sugestões sobre o que pode estar acontecendo?

EDITAR:

Parece que outros problemas coincidem em outros servidores neste host da VM. Então, parece que esse é um problema de host ou de rede. Nós não temos recursos para continuar tentando descobrir isso, então vamos construir novas máquinas.

    
por gwgeller 07.07.2016 / 00:14

1 resposta

1

Para possíveis estratégias de debbuging, este é o meu conselho:

Teste o disco extensivamente a partir de uma mídia Linux ao vivo. Ter um disco somente leitura, é um sintoma ruim de corrupção de mídia. Com (muito) azar, você tem erros no setor do disco rígido, no entanto, o fato de estar nos dizendo que a imagem do vmware veio de uma máquina travada pode significar que a VM / vmdk subjacente está corrompida ou, pior ainda, binários corrompidos.

Eu migraria / reinstalaria para outra máquina sem usando mecanismos de importação / exportação de vmware, e sem copiando o vmdk se não consegui encontrar defeitos de disco físico subjacentes (no host vmware).

Quanto aos logs de arquivos, eles deixam de ser significativos assim que o kernel ativa a montagem somente leitura para proteger a integridade dos dados. Redirecionar erros do syslog para outro servidor syslog e para outro console virtual (algumas distribuições redirecionam os logs para um console virtual por padrão ). Com sorte, você poderá ver um registro de erros dando uma pista da causa.

Ainda sobre logs, você não mencionou logs do vmware . Se houver defeitos no disco físico subjacente, eles aparecerão nos logs do vmware - afinal, a VM está vendo apenas uma imagem de disco virtual fornecida pelo hypervisor vmware. Vá para o console do terminal vmware e assista-os. Se possível, redirecione os logs vmware também para outro servidor syslog para assisti-los regularmente.

Quanto à manutenção contínua, é recomendável instalar agentes SNMP e usar cactos, observium ou o que você quiser, para obter linhas de base de uso regular dos recursos. Isso também pode ser útil em caso de problemas e também pode enviar alertas automatizados.

    
por 07.07.2016 / 08:08