Estou tendo muitos problemas com o meu servidor NFS v4 rodando sobre o infiniband (IPoIB), toda vez que a carga fica alta, o servidor nfs é travado e eu tenho que reinicializar o servidor para corrigir o problema. Eu recebo as seguintes mensagens a cada poucos segundos:
Message from syslogd@fruster at Jul 14 12:51:54 ...
kernel:BUG: soft lockup - CPU#6 stuck for 22s! [nfsd:15806]
Eu tenho tentado depurar isso e descobrir o que está acontecendo, então verifiquei nfsstat -s
para ver o que estava usando toda a largura de banda:
Server rpc stats:
calls badcalls badclnt badauth xdrcall
241998732 0 0 0 0
Server nfs v4:
null compound
3 0% 242004087 99%
Server nfs v4 operations:
op0-unused op1-unused op2-future access close commit
0 0% 0 0% 0 0% 148697 0% 65006 0% 124611 0%
create delegpurge delegreturn getattr getfh link
3072 0% 0 0% 10373 0% 6028483 2% 120565 0% 0 0%
lock lockt locku lookup lookup_root nverify
0 0% 0 0% 0 0% 52306 0% 0 0% 0 0%
open openattr open_conf open_dgrd putfh putpubfh
90478 0% 0 0% 223 0% 18760 0% 18834351 6% 0 0%
putrootfh read readdir readlink remove rename
65 0% 12579510 4% 4540 0% 5 0% 24848 0% 20232 0%
renew restorefh savefh secinfo setattr setcltid
23413 0% 0 0% 20241 0% 0 0% 1073 0% 66 0%
setcltidconf verify write rellockowner bc_ctl bind_conn
66 0% 0 0% 5716220 2% 0 0% 0 0% 13 0%
exchange_id create_ses destroy_ses free_stateid getdirdeleg getdevinfo
101 0% 159 0% 58 0% 0 0% 0 0% 0 0%
getdevlist layoutcommit layoutget layoutreturn secinfononam sequence
0 0% 0 0% 0 0% 0 0% 0 0% 225439523 83%
set_ssv test_stateid want_deleg destroy_clid reclaim_comp
0 0% 0 0% 0 0% 0 0% 55 0%
Como você pode ver, 'sequence' está usando 83% da largura de banda do NFS, mas não tenho ideia de qual 'sequência' é, e não consigo encontrá-la on-line em nenhum lugar porque quando eu procuro por 'nfsstat -s output sequence 'Eu recebo um monte de páginas dizendo para' fazer os seguintes passos em seqüência '.
Alguém tem alguma ideia de qual 'seqüência' é? Pontos de bônus se você tiver uma sugestão de porque o NFS está congelando.
Obrigado