Nesse caso, tente remontar a partição nfs. É exportado com ou sem sincronização?
Nosso sistema de arquivos compartilhado por NFS está bloqueando.
Por favor, sinta-se à vontade para fazer qualquer pergunta que julgue relevante. :)
Na época, há muitos processos em estado de "suspensão de disco" e as médias de carga em nossas máquinas disparam foguetes. As máquinas são responsivas no SSH, mas a nossa maioria dos nossos sites (apache + mod_php) simplesmente suspendem, assim como nosso sistema de e-mail (exim + dovecot). Todos os sites que não exigem acesso de gravação ao sistema de arquivos continuam a operar.
As médias de carga continuam aumentando até que algum tipo de tempo limite seja atingido, mas por pelo menos 10-15 minutos. Já vi médias de carga acima de 800, mas as máquinas ainda respondem por ações que não exigem gravação no sistema de arquivos compartilhado.
Eu tenho investigado uma variedade de opções, que acabaram se tornando red-herrings: tarefas nagios, proftpd, bind, cron.
Estou vendo essas mensagens no log do sistema do servidor de arquivos:
Jul 30 09:37:17 fs0 kernel: [1810036.560046] statd: server localhost not responding, timed out Jul 30 09:37:17 fs0 kernel: [1810036.560053] nsm_mon_unmon: rpc failed, status=-5 Jul 30 09:37:17 fs0 kernel: [1810036.560064] lockd: cannot monitor node2 Jul 30 09:38:22 fs0 kernel: [1810101.384027] statd: server localhost not responding, timed out Jul 30 09:38:22 fs0 kernel: [1810101.384033] nsm_mon_unmon: rpc failed, status=-5 Jul 30 09:38:22 fs0 kernel: [1810101.384044] lockd: cannot monitor node0
Software envolvido:
VMWare, Debian lenny (64 bits), antigo Red Hat (32 bits) (versão 7 eu acredito), Debian etch (32 bits)
NFS, apache2 + mod_php, exim, dovecot, vincular, amanda, proftpd, nagios, cactos, drbd, pulsação, keepalived, LVS, cron, ssmtp, NIS, svn, fantoche, memcache, mysql, postgres
Joomla !, Magento, Typo3, Midgard, Symfony, aplicativos PHP personalizados
Nesse caso, tente remontar a partição nfs. É exportado com ou sem sincronização?