Temos uma caixa EMC NX4 SAN que oferece um compartilhamento CIFS para vários servidores de aplicativos do Windows Server 2008 R2. Os servidores de aplicativos estão usando o compartilhamento CIFS para fornecer muitos arquivos de imagem (~ 2.500 ops / s no compartilhamento), no entanto, nem a SAN nem os servidores de aplicativos estão mostrando sinais óbvios de estresse.
De vez em quando, um servidor de aplicativos, aparentemente, de repente, desconecta a conexão com a SAN. Qualquer código .NET que tente servir um arquivo da SAN falha com:
System.IO.IOException: The specified network name is no longer available
Se eu executar o RDP no servidor de aplicativos e tentar acessar "\ san-name" por meio do explorer, recebo o mesmo erro. Todos os outros servidores de aplicativos podem acessá-lo bem. Eu também posso acessar "\ ip-of-san" apenas perfeitamente, ping também funciona.
Uma reinicialização do servidor de aplicativos corrige o problema, mas isso é uma medida um tanto drástica para o problema, já que parece que o SAN está funcionando bem e o computador pode acessá-lo - ele simplesmente parece o "\ san-name" "o acesso aumentou.
Isso aconteceu com dois servidores de aplicativos diferentes durante a última semana, por isso não suspeito que um único servidor de aplicativos seja a causa. Ignorando a causa por enquanto - como restauraria a conexão "\ san-name" sem reiniciar a máquina? E posso de alguma forma consultar o que deu errado?
Os registros de eventos não mostram nada (além dos erros relacionados ao ASP.NET causados pelo problema), nem nos servidores de aplicativos nem na SAN.
Atualização:
Com base nas sugestões, tentarei reiniciar o serviço Estação de Trabalho da próxima vez e ver se isso ajuda no problema. Definitivamente não é uma correção, mas muito mais rápido de fazer do que reiniciar a máquina inteira como eu tenho feito atualmente. Qualquer maneira de consultar o status das conexões que o serviço Estação de Trabalho mantém?
Atualização 2:
Confirmado que reiniciar o serviço de estação de trabalho "corrige" o problema. O próximo passo é tentar a mudança de registro para aumentar o valor de MaxCmds. Não será possível confirmar se esse é o problema, só pode ser assumido se for executado por um longo período sem problemas.