Primeiro de tudo, a história por trás -
De repente (literalmente durante a noite), uma instância começa a lançar alertas de utilização da CPU. Esta é uma VM um pouco humilde (1 vCPU, 2 GB de RAM), mas tudo o que ela faz é servir muito NFS e pesquisar Cactos e servir para um punhado de sistemas. Essa VM é hospedada em um provedor de IaaS no vSphere 4.xe está no kit corporativo (HP / NetApp SAN, etc.).
A última vez que mudei alguma coisa neste sistema foi quase 4 semanas atrás. Observando as métricas, um dos agentes / processos do provedor usado pela McAfee (cma) consumiu mais RAM do que o habitual até um trabalho cron Eu reiniciei o serviço no fim de semana anterior (o trabalho cron está lá porque estou convencido de que esse agente tem um vazamento de memória). De qualquer forma, o problema é que eu não posso mais executar o Cacti (httpd / mysql / php cron job que executa poller.php) neste sistema - a carga irá subir mais de 10 e o iowait é realmente alto (~ 90%). Eu tentei o seguinte:
- execute o Cacti com o serviço da McAfee interrompido
- sistematicamente atualizado php *, httpd / mod_ssl, mysql-server, após cada tentativa de executar o Cacti
- atualização do yum para todos os pacotes mais recentes, agora é RHEL 5.8 (x86_64)
A atualização do yum (todos) colocou o sistema em uma carga de 6 e levou horas.
Perguntei ao provedor de hospedagem se havia algo errado com a camada de armazenamento, mas eles disseram que não havia. Mas isso simplesmente não computa. Isso me fez pensar se talvez poderia haver um problema com o desalinhamento da partição, uma vez que li que pode causar o tipo de sintoma que parece estar ocorrendo. Agora, o provedor teria criado essas partições do VMFS no cliente do vSphere / vCenter, o que eu entendo garante que haja alinhamento. Mas pode sair do alinhamento ao longo do tempo? Em caso afirmativo, existe alguma maneira de uma VM / Convidado que você possa detectar isso? O utilitário mbrscan (NetApp) parece detectar, mas precisa ser executado a partir do console ESX do host.
Obrigado!
Edit: saída do sfdisk com o uS adicionado:
[root@nfs1 ~]# sfdisk -luS /dev/sda
Disk /dev/sda: 13054 cylinders, 255 heads, 63 sectors/track
Units = sectors of 512 bytes, counting from 0
Device Boot Start End #sectors Id System
/dev/sda1 * 63 208844 208782 83 Linux
/dev/sda2 208845 164055779 163846935 83 Linux
/dev/sda3 164055780 209712509 45656730 8e Linux LVM
/dev/sda4 0 - 0 0 Empty
Atualização:
Uma reinicialização desta instância resolveu completamente os problemas de desempenho. Uma análise mais aprofundada pelo Provedor de Hospedagem indicou que há algum desalinhamento, mas na opinião deles não resultaria em sintomas experimentados. Eles dizem, por exemplo, que o desalinhamento em VMs do Windows é maior. Neste ponto, vamos esperar e ver se isso acontece novamente e, se for o caso, alterar o deslocamento do setor.