Suspensão intermitente do sistema completo no servidor da VM executando o CentOS 5.10

2

CentOS 5.10 / VMWare ESX 5.1

Eu tenho um servidor de e-mail mais antigo executando o CentOS 5.10 (com SendMail) e ele está apresentando interrupções intermitentes em que o sistema não responde completamente. Durante esses horários, não consigo me conectar a ele e o console virtual não responde.

A parte estranha é que nosso grupo de administração do VMWare não está vendo nenhum pico de recursos óbvio que seria indicativo de recursos insuficientes, picos de carga, etc. Além disso, quando examino os logs do sistema (por exemplo, maillog, mensagens etc.) uma ausência notável em TODAS as atividades de log durante o tempo do travamento, o que sugere que essas interrupções são graves o suficiente para impedir o log (ou talvez haja um problema no sistema de arquivos / disco).

A única anormalidade é que o logging do sendmail na caixa foi bem alto (98 ao invés do nível usual 9). Vou ajustá-lo de volta ao normal em breve.

Estou perplexo onde posso encontrar mais informações aqui. Existe um despejo de thread que me diga o que o sistema operacional estava trabalhando durante o jeito?

Informações adicionais:

  • A versão do kernel é: 2.6.18-371.4.1.el5 #1 SMP Thu Jan 30 06:09:24 EST 2014 i686 i686 i386 GNU/Linux
  • O armazenamento é tratado em uma SAN compartilhada.
  • As ferramentas VMWare não estão instaladas no sistema, de acordo com a política interna. No entanto, estamos trabalhando há muito tempo sem as ferramentas VMware, portanto, não achamos que a ausência delas seja necessariamente a causa raiz.
  • Versão específica do VMWare: VMware ESXi 5.1.0 build-2000251
  • O hardware é IBM 3850 M2, modelo 7233AC1
por Mike B 10.11.2014 / 21:54

2 respostas

1

Eu só queria fechar o ciclo neste. Os bloqueios misteriosos pararam de ocorrer depois que reduzimos o log do SendMail de 99 para 9 (padrão). Evidentemente, essa era uma configuração de nível de log muito alta, mas eu nunca vi isso parar completamente um servidor. Também não faço ideia de quanto tempo foi definido dessa maneira.

Meu palpite é que a natureza intermitente disso resultou de uma combinação de velocidades de E / S de disco medíocres e ocasionais picos de carga de SMTP.

Obrigado a todos pela sua ajuda.

    
por 03.12.2014 / 01:35
2

Então, o CentOS 5.10 de 32 bits ... Isso não é necessariamente um problema ...

Mas você deve sempre as ferramentas VMware instaladas ao executar um sistema operacional suportado pelo VMware. Isso pode ser extremamente útil quando a memória do host do vSphere / ESXi é restringida, além de adicionar o driver de balão de memória, melhores opções de interface NIC (para o seu sistema EL5) e gerenciamento de energia.

Em geral, observe o que a SAN está fazendo no momento em que esses problemas ocorrem. Além disso, se você não estiver usando as ferramentas do VMware, há uma boa chance de que o ESXi não esteja em um nível de revisão estável . Por favor, informe sobre o número de compilação do ESXi. Você o verá no topo do vSphere Client quando conectado ao host.

Editar:

Como esse é um cluster do vSphere, você pode fazer com que a equipe verifique a alocação de memória. Eu vi VMs Linux travar ou travar por causa da configuração de memória ruim. Isso pode incluir a definição do limite de RAM no cliente vSphere para a VM em questão. Isso também pode incluir situações em que seu cluster está muito comprometido com RAM e / ou onde as VMs receberam muita RAM.

Consulte: vSphere education - Quais são as desvantagens de configurar VMs com * muita memória *?

Qualquer análise mais detalhada exigiria ver algumas das telas de status de cluster / recurso do VMware.

    
por 10.11.2014 / 22:59

Tags