Como acompanhamento, gostaria de informar que hoje mudamos nossa arquitetura de transferência de arquivos do samba para HTTP, para verificar se o atraso vem do serviço (samba) ou do host / rede. Decidimos usar o apache2 para hospedar os arquivos necessários para o nosso aplicativo, e tentamos meio dia enfrentar o mesmo problema que tivemos com o samba, sem sucesso. Por mais de quatro horas de testes (fizemos reinicializações automáticas de clientes após o download bem-sucedido do payload do compartilhamento apache), não vimos uma única tentativa malsucedida de conexão!
Devido a isso, decidimos reduzir nossa configuração do samba para uma configuração bare-metal que realmente se parece com isso, para evitar a interferência entre as diferentes configurações que fizemos:
[global]
workgroup = WORKGROUP
security = user
server role = standalone
load printers = no
printing = bsd
printcap name = /dev/null
disable spoolss = yes
map to guest = Bad Password
log file = /var/log/samba/log.%m
Mas mesmo com essa configuração muito limitada, ainda vemos o problema que, após uma quantidade muito limitada de reinicializações, o atraso entre um ping bem-sucedido para o servidor (para verificar sua disponibilidade) e a conexão com o smb começam a aumentar, até finalmente, o tempo limite e lança um erro "caminho de rede não foi encontrado".
Fato interessante neste caso é que podemos repetir esse comportamento com qualquer cliente que tenhamos disponível. Acabamos de inicializar o nosso WinPE, deixe ping no servidor, se ele pings, conecte o compartilhamento samba, baixe alguns arquivos necessários (apenas alguns MB) e deixe o cliente reiniciar. Mesmo se estamos testando paralelamente em vários clientes que estão atrasados por digamos duas reinicializações, podemos ver que, se um cliente "trava", o outro cliente novo é iniciado imediatamente. A conclusão é que o problema deve ser causado por uma interferência do cliente / samba, ou algo que indique a direção de muitas conexões simultâneas de um determinado cliente para o compartilhamento de samba.
Pensamos que reduzimos completamente o problema ao samba, pois, com o apache, não poderíamos fazer com que o problema aparecesse por meio dia. Além disso, devido ao fato de que, com o apache, tudo está funcionando como esperado, pensamos, que um servidor ou uma configuração de rede não pode ser o caso.
Você pensaria a mesma coisa e diria que deve ser samba?
Agradecemos qualquer ideia que possa ser útil. Como resolvemos esse caso em particular (a solução para nós é não usar o samba), gostaríamos de saber a causa raiz desse problema, pois temos um problema semelhante em outro departamento de fábrica, onde não podemos evitar usar o samba para compartilhar arquivos através da rede. De acordo com isso, estamos dispostos a continuar a depurar este problema, se algum de vocês tiver mais informações para nós.
Para evitar mais confusão, gostaria de informar que Marcel Kohlmeyer e eu somos colegas, que trabalham com o mesmo problema simultaneamente.