O servidor está em funcionamento há mais de 1,5 anos, sem problemas.
Na semana passada começou a receber erros e congelamento de estações de trabalho:
lockd: não pode monitorar
statd: server rpc.statd não está respondendo, expirou
Servidor:
SO: Ubuntu 10.04.4
Kernel: Linux 2.6.32-51-server
nfs-common 1: 1.2.0-4ubuntu4.2
nfs-kernel-server 1: 1.2.0-4ubuntu4.2
/ home x.x.x.0 / 255.255.0.0 (rw, no_root_squash, inseguro, assíncrono, wdelay, no_subtree_check)
/ public x.x.x.0 / 255.255.0.0 (rw, no_root_squash, inseguro, assíncrono, wdelay, no_subtree_check)
Estações de trabalho:
Ubuntu 10.04.x
servidor: / home / home nfs defaults 0 0
servidor: / public / mnt / public nfs defaults 0 0
Ran rpcinfo -p de estações de trabalho e de servidores retornam ok.
Enquanto congelado, o servidor é 100% acessível, ou seja, ssh top df retorna como esperado.
No entanto, as estações de trabalho são incapazes de se mover entre os desktops e não respondem, o Chrome pára de funcionar
No servidor ps -aux | grep lockd mostra que o processo lockd é D.
No entanto, após alguns minutos, o lockd retorna para S e R, e as estações de trabalho estão funcionais novamente
Depois de ativar o nlm_debug, vejo que, de fato, o processo lockd fica preso
Eu observo no log abaixo que o lockd fica preso por um minuto 02:03:21 - 02:04:21
Isso se repete quando o lockd fica preso e descobri isso reiniciando a estação de trabalho "ofensiva"
todos os sistemas voltam a funcionar normalmente.
Oct 2 02:04:21 fs1 kernel: [647001.312596] lockd: request from 172.x.x.x, port=960
Oct 2 02:04:21 fs1 kernel: [647001.312603] lockd: LOCK called
Oct 2 02:03:21 fs1 kernel: [646941.418685] lockd: nlmsvc_lookup_host(host='roi-lnx', vers=4, proto=tcp)
Oct 2 02:03:21 fs1 kernel: [646941.418687] lockd: get host roi-lnx
Oct 2 02:03:21 fs1 kernel: [646941.418688] lockd: nlm_lookup_host found host roi-lnx (172.16.16.76)
Oct 2 02:03:21 fs1 kernel: [646941.418689] lockd: nsm_monitor(roi-lnx)
Oct 2 02:04:21 fs1 kernel: [647001.312552] statd: server rpc.statd not responding,
timed out
Oct 2 02:04:21 fs1 kernel: [647001.312565] lockd: NSM upcall RPC failed, status=-5
Oct 2 02:04:21 fs1 kernel: [647001.312570] lockd: cannot monitor roi-lnx
Oct 2 02:04:21 fs1 kernel: [647001.312572] lockd: release host roi-lnx
Isso parece um bug no lockd.
Eu passei dias pesquisando no Google, e há alguns casos semelhantes, mas sem correções.
Por favor, deixe-me saber se você tem alguma sugestão para resolver este problema.
Obrigado
Laurence