nfsstat -s: O que significa sequência?

1

Estou tendo muitos problemas com o meu servidor NFS v4 rodando sobre o infiniband (IPoIB), toda vez que a carga fica alta, o servidor nfs é travado e eu tenho que reinicializar o servidor para corrigir o problema. Eu recebo as seguintes mensagens a cada poucos segundos:

Message from syslogd@fruster at Jul 14 12:51:54 ...
  kernel:BUG: soft lockup - CPU#6 stuck for 22s! [nfsd:15806]

Eu tenho tentado depurar isso e descobrir o que está acontecendo, então verifiquei nfsstat -s para ver o que estava usando toda a largura de banda:

Server rpc stats:
calls      badcalls   badclnt    badauth    xdrcall
241998732   0          0          0          0       

Server nfs v4:
null         compound     
3         0% 242004087 99% 

Server nfs v4 operations:
op0-unused   op1-unused   op2-future   access       close        commit       
0         0% 0         0% 0         0% 148697    0% 65006     0% 124611    0% 
create       delegpurge   delegreturn  getattr      getfh        link         
3072      0% 0         0% 10373     0% 6028483   2% 120565    0% 0         0% 
lock         lockt        locku        lookup       lookup_root  nverify      
0         0% 0         0% 0         0% 52306     0% 0         0% 0         0% 
open         openattr     open_conf    open_dgrd    putfh        putpubfh     
90478     0% 0         0% 223       0% 18760     0% 18834351  6% 0         0% 
putrootfh    read         readdir      readlink     remove       rename       
65        0% 12579510  4% 4540      0% 5         0% 24848     0% 20232     0% 
renew        restorefh    savefh       secinfo      setattr      setcltid     
23413     0% 0         0% 20241     0% 0         0% 1073      0% 66        0% 
setcltidconf verify       write        rellockowner bc_ctl       bind_conn    
66        0% 0         0% 5716220   2% 0         0% 0         0% 13        0% 
exchange_id  create_ses   destroy_ses  free_stateid getdirdeleg  getdevinfo   
101       0% 159       0% 58        0% 0         0% 0         0% 0         0% 
getdevlist   layoutcommit layoutget    layoutreturn secinfononam sequence     
0         0% 0         0% 0         0% 0         0% 0         0% 225439523 83% 
set_ssv      test_stateid want_deleg   destroy_clid reclaim_comp 
0         0% 0         0% 0         0% 0         0% 55        0% 

Como você pode ver, 'sequence' está usando 83% da largura de banda do NFS, mas não tenho ideia de qual 'sequência' é, e não consigo encontrá-la on-line em nenhum lugar porque quando eu procuro por 'nfsstat -s output sequence 'Eu recebo um monte de páginas dizendo para' fazer os seguintes passos em seqüência '.

Alguém tem alguma ideia de qual 'seqüência' é? Pontos de bônus se você tiver uma sugestão de porque o NFS está congelando.

Obrigado

    
por Mike Dacre 14.07.2015 / 21:56

1 resposta

1

A definição parece ser a seguinte.

RFC 3530 NFS v4: Protocolo de Sistema de Arquivo de Rede (NFS) versão 4

NFS4ERR_BAD_SEQID
O número de seqüência em uma solicitação de bloqueio não é o próximo número esperado ou o último número processado.

A fonte do nfsstat não revelou mais nenhuma informação infelizmente.

ATUALIZAÇÃO 15 de julho : Possibilidade de Bug 651409 - Mensagens de erro BAD SEQ ID retornadas pelo Servidor NFS sendo o culpado aqui.

    
por 14.07.2015 / 23:07

Tags