Solucionando problemas de um servidor NFS pendurado após solicitação de montagem autenticada

1

Eu preciso de alguns conselhos sobre como solucionar um problema do servidor NFS no Scientific Linux (RHEL) 6.1. O log no servidor mostra que uma solicitação de montagem autenticada foi feita:

Jan 13 16:30:02 ??? rpc.mountd[3996]: authenticated mount request from ????:784 for /shared-storage/cm/shared (/shared-storage/cm/shared)

Mas depois disso, isso não continua. No cliente, também está pendurado. O interessante agora é que eu tenho dois servidores NFS, que devem ser idênticos, e o outro está funcionando perfeitamente, mas o outro exibe o comportamento mencionado acima. O problema também não é completamente persistente, i. e. às vezes a solicitação de montagem é bem-sucedida.

Eu assumo que o problema deve estar relacionado ao servidor e não ao cliente, porque ele está funcionando perfeitamente no outro servidor. Minha pergunta é onde eu deveria pesquisar o problema. Eu já recriou as exportações usando exportfs -r, reiniciei o servidor NFS, comparei as saídas rpcinfo de ambos os servidores - sem sucesso. O problema ainda sobrevive a uma reinicialização. Qualquer outra ideia é apreciada.

Como resposta à pergunta de Tim: Eu tenho esporadicamente o seguinte no dmesg, mas não sei se está relacionado

e1000e 0000:0c:00.0: eth4: Detected Hardware Unit Hang:
  TDH                  <24>
  TDT                  <25>
  next_to_use          <25>
  next_to_clean        <24>
buffer_info[next_to_clean]:
  time_stamp           <1c3d12940>
  next_to_watch        <24>
  jiffies              <1c3d12940>
  next_to_watch.status <0>
MAC Status             <80383>
PHY Status             <792d>
PHY 1000BASE-T Status  <7800>
PHY Extended Status    <3000>
PCI Status             <10>

Edição adicional: O problema acima não ocorre na máquina que está funcionando, então provavelmente está relacionado.

Novamente, uma edição: o erro não está no dispositivo (software) usado para NFS, mas em outro. A montagem do NFS também não aciona a mensagem.

    
por Christoph 13.01.2012 / 16:44

2 respostas

0

Algo no syslog ou no dmesg que parece suspeito? Estou curioso para saber se há problemas de hardware no sistema mal-comportado.

Edite, curioso sobre o seu erro que você viu no dmesg, e encontrou o mesmo erro mencionado aqui: Problemas com Linux e1000e (driver de rede Intel) em abundância, por onde eu começo?

De toda a saída de depuração que o OP postou, eu tinha CERTEZA de que seu hardware estava quase morto, aparentemente havia um parâmetro do kernel para corrigir o problema: pcie_aspm=off

Você pode tentar inicializar com esse parâmetro e ver se ele conserta as coisas!

    
por 13.01.2012 / 19:59
1

Verifique se o portmap está sendo executado no servidor E no cliente.

    
por 31.10.2013 / 21:41