No final de 2013, nosso único servidor DHCP do Windows Server 2008R2 começou a não responder mais uma vez a cada semana. O servidor em si estava ativo, mas o servidor DHCP não estava respondendo. As tentativas de conectar-se à interface de gerenciamento seriam interrompidas e nunca expirariam, e as tentativas de reiniciar o serviço de services.msc também seriam interrompidas. Nenhuma entrada foi gravada no log dhcp e não havia nada de útil em nenhum log de eventos. Eu li vários artigos do microsoft kb sobre problemas semelhantes e instalei um hotpatch que encontrei, mas nada disso ajudou. Depois de algumas semanas de isso acontecendo, e fazendo com que todo o servidor resolvesse isso toda vez, migramos a maioria dos escopos para um segundo servidor e, embora isso não tenha resolvido nosso problema, ele diminuiu o problema. O problema nunca reapareceu nesse servidor e, com a maioria dos escopos migrados, ele ainda estava atendendo a concessões DHCP em um escopo de 500+. Naquela época, teorizamos que, embora não houvesse um limite oficial para a capacidade do servidor DHCP do Windows, talvez tivéssemos encontrado algum tipo de condição de corrida relevante para o número de concessões que tivemos em um determinado momento.
Dois dias atrás, a mesma coisa aconteceu no segundo servidor, e aconteceu novamente esta manhã. Eu não estava no escritório quando aconteceu na segunda-feira, então o administrador do Linux rebateu todo o servidor (que foi a única coisa que ajudou anteriormente). Esta manhã, quando aconteceu, eu estava on-line, então entrei. Depois de tentar todas as coisas que tentamos em 2013, usei o gerenciador de tarefas para forçar a eliminação do svchost que estava executando o dhcpserver e depois reiniciei o serviço usando services.msc. Uma entrada foi gravada no log dhcp indicando que o serviço estava on-line novamente, mas nunca começou a distribuir IPs. A interface de gerenciamento também foi responsiva neste momento. Depois de quase uma hora cutucando, tive que reiniciar o servidor para que as pessoas que entravam para começar o dia não se incomodassem.
Não adicionamos novos escopos nem alteramos a rede de maneira significativa que possa causar o problema.
Neste ponto, espero encontrar uma maneira de aumentar o registro em log que o servidor DHCP faz, embora esteja me perguntando se ele é mais do que o serviço do servidor DHCP que está causando o problema neste momento, já que consegui forçar o kill e reinicie-o, e ele escreveu no log de auditoria, mas nada mais aconteceu.
Os servidores estão executando o Kaspersky AV, e todas as exclusões para servidores DHCP que encontrei on-line estão em vigor (no entanto, excluindo a pasta dhcp), mas o desinstalei esta manhã para ver se isso faz diferença.
O servidor é remendado na maior parte, não é 100% atualizado, mas é muito próximo.
Pensamentos? Sugestões?
Tags windows dhcp dhcp-server