Falhas de logon intermitentes ou falhas de bloqueio quando sob alta carga de representação

2

Recentemente, vimos uma série interessante de falhas em nosso cluster, em que os trabalhos dos usuários falham intermitentemente com erros de logon, erros de conta bloqueada ou erros de permissão de arquivo.

Nosso cluster é fracamente acoplado e de granulação grossa, construído em torno de 40 máquinas Windows 2003 de 16 vias. Eles participam de um domínio corporativo, com controladores de domínio localmente e na WAN. O envio de trabalho é tratado por meio de um aplicativo de terceiros (ActiveBatch) e o armazenamento de arquivos é dividido entre uma SAN exportada por um servidor Windows 2003 e um compartilhamento CIFS mais recente em um cluster Isilon.

Os trabalhos são gráficos direcionados e acíclicos, consistindo de 1 a 5.000 processos, programados em um nó principal por meio do ActiveBatch. A maioria dos trabalhos são pequenos arquivos em lote ou scripts Perl que executam a configuração do ambiente para códigos computacionais gravados em FORTRAN. Os arquivos de entrada e saída desses trabalhos são armazenados na SAN ou no Isilon.

O que temos visto são falhas intermitentes na autenticação, que originalmente acreditávamos estar isoladas no Isilon. O modo de falha geral é de 100 a 200 trabalhos começariam a execução, cada um fazendo referência a dados de configuração comuns em um arquivo. A maioria teria sucesso, no entanto, vários trabalhos em várias máquinas falhariam no lado do cliente com um erro de permissões de arquivo (0x775 'A conta referenciada está atualmente bloqueada ...' ou 0x52E 'nome de usuário desconhecido ou senha incorreta' ).

Verificando os registros de eventos para esses períodos de tempo 0 falhas de auditoria de segurança, mas várias sucessões de auditoria de segurança para o mesmo usuário! A única entrada do log de eventos nas proximidades é um evento 6013 nos informando: "O tempo de atividade do sistema é de 2199088 segundos".

Recentemente, também vimos o mesmo erro quando o software de agendamento de trabalho tenta criar os trabalhos nas máquinas remotas. O ActiveBatch enviará os detalhes do trabalho para um serviço em execução na máquina, que tentará a representação do usuário quando ele criar o trabalho. Assim como acontece com as falhas de permissão de arquivo, estamos vendo bloqueios de conta e usuário / senha desconhecidos quando a conta do usuário não está bloqueada nem é desconhecida (e de fato os processos na mesma máquina tiveram sucesso logo após essas tentativas malsucedidas).

Não estou familiarizado o suficiente com os controladores de domínio, nem tenho acesso suficiente para explorar, para saber se isso é ou não um problema do lado do cliente ou um problema do lado do servidor. A falta de entradas de falha de log de eventos do lado do cliente me leva a acreditar que a falha talvez seja um tempo limite de DC ou um problema de rede. No entanto, uma interrogação do Wireshark sobre o tráfego entre um servidor aleatório e o DC não revelou inconsistências grosseiras além das mensagens ocasionais Resposta do Kerberos Muito Grande.

Este é um problema comum em configurações de controladores de domínio em que alta carga de autenticação / representação causa falhas transitórias?

    
por user7116 24.07.2012 / 19:18

1 resposta

1

Não é comum, a menos que haja algo gerando a falha que resultaria no bloqueio.

Habilitar o log detalhado do Netlogon pode ajudar a rastreá-lo.

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Netlogon\Parameters]  
"DBFlag"=dword:24401F04  

Os arquivos criados são% systemroot% \ debug \ netlogon.log e netlogon.bak.

Eles podem ser transferidos rapidamente em um ambiente de alto volume, portanto, talvez seja necessário aumentar o tamanho dos arquivos, o que equivale a 20 MB. Para aumentá-lo para 50 MB:

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Netlogon\Parameters]
"MaximumLogFileSize"=dword:3200000  

Ativando o log de depuração para o serviço Netlogon
link

    
por 15.08.2012 / 17:42