O Server 2003 R2 não permite o logon após alguns dias de atividade

4

Temos um padrão R2 do servidor 2003 (que eu chamarei de SRV01) que está batendo um pouco agora, mas ele ainda funciona como um servidor de arquivos, impressão e SQL na rede de nossa empresa. O SRV01 hospeda perfis de usuários, diretórios de usuário e praticamente todos os nossos dados de negócios. Observe que nosso AD está atualmente no nível 2008 R2.

Esse servidor deve ser atualizado nos próximos 12 meses, mas ainda não tenho orçamento para gastar nele.

Um pouco da história deste servidor segue:

Quando o SRV01 foi comissionado pela primeira vez, ele agiu como um controlador de domínio (com a mesma instalação do 2003 R2 que tem hoje), emparelhado com outro servidor que executava o Server 2003 R2 SBS.

Alguns anos atrás, nós compramos um par de DCs dedicados (2008 R2) e neste momento nós descomissionamos o servidor SBS 2003, e o SRV01 foi DCPROMOed fora do AD.

Até muito recentemente, o SRV01 costumava executar o Exchange 2003, no entanto, compramos recentemente um servidor dedicado para o Exchange 2010 e atualizamos (seguindo o caminho de atualização recomendado pela Microsoft). O Exchange 2003 foi desinstalado recentemente. - Limpo, tanto quanto é do meu conhecimento.

Desde que o Exchange foi removido do SRV01, descobri que depois de alguns dias de atividade, quando tento fazer logon, pressionar CTRL-ALT-DEL apenas oculta o banner Bem-vindo ao Windows Server 2003 e nunca apresenta o logon diálogo. Tudo o que vejo é um ponteiro de mouse móvel e um fundo em branco.

É uma história semelhante com uma sessão de administrador do TS, o cliente RDP conecta e me fornece um plano de fundo em branco, mas nenhuma caixa de diálogo de logon é apresentada. A sessão RDP indefinidamente trava até eu desistir e fechá-la.

A única maneira que consegui acessar o servidor é puxar o plug nele. Embora o servidor tenha um controlador RAID 5 com backup de bateria, estou insatisfeito por ter que fazer isso, então, como uma medida temporária, criei um trabalho agendado para reinicializar o SRV01 todas as noites.

Não apenas não gosto da idéia de agendar uma reinicialização de um servidor como este, mas também está causando problemas para os usuários que deixam os desktops deixados conectados durante a noite. Usuários queixam-se de "falhas de gravação atrasadas", e também houve um número de usuários que começaram a reclamar sobre problemas de bloqueio de conta, bem como usuários que não podem se conectar a compartilhamentos no SRV01 até que eles reinicializem seus PCs.

Eu examinei logs de eventos no SRV01 e nos controladores de domínio procurando por pistas sobre qual é o problema, mas não há nada de desagradável registrado. Como eu poderia estar investigando esse problema quando nada de relevância está sendo registrado? Existe algum registro adicional que pode ser ativado que possa fornecer algumas pistas sobre o que poderia estar causando esse problema? O monitor de desempenho poderia me ajudar aqui e, em caso afirmativo, quais contadores você consideraria monitorar?

Vale ressaltar que, embora o servidor não responda através do console e do TS, ele ainda responde a clientes que se conectam a compartilhamentos sem problemas por vários dias, mas depois de uma semana eu começo a ouvir usuários relatando problemas ao acessar compartilhamentos. isso parece bastante esporádico.

Também tentei deixar o console conectado (e bloqueado), quando percebo que não consigo mais fazer logon via TS, posso desbloquear o console do servidor sem problemas, mas ele se recusa a reinicializar / desligar e as tentativas subseqüentes de Reinicie o relatório que um desligamento do sistema já está em andamento e o sistema então trava completamente.

Eu tentei jogar o jogo em espera por várias horas pensando que um tempo limite pode permitir que o desligamento continue, mas sem sucesso.

    
por Bryan 29.11.2011 / 23:55

2 respostas

2

Eu estou supondo que isso é x86 (32 bits). Eu estaria inclinado a executar o depurador do Windows na próxima ocorrência e exibir a quantidade de memória usada. Em particular, a memória do kernel do sistema (pool paginado e pool não paginado).

Se você tiver o Windows Debugger copiado para uma pasta, execute windbg.exe e o comando a ser inserido é: !vm

O que você pode encontrar é que o pool paginado ou não paginado está esgotado e possivelmente definido como muito baixo. Fora da caixa, as configurações para a memória do kernel no Windows 2003 x86 são ridiculamente baixas e facilmente esgotadas.

Você também deve verificar se você não tem a opção / 3GB configurada no boot.ini - isso só piora o problema de esgotamento da memória do kernel.

Isso também pode apontar para algum driver incorreto que está consumindo memória do kernel, como um driver de rede.

Se o seu arquivo de paginação em C: \ é grande o suficiente para armazenar toda a memória física, você também pode forçar uma tela azul com uma configuração do sistema. O despejo de memória resultante pode ser examinado no depurador. Forçar uma tela azul é útil se você não conseguir que o depurador seja executado.

Ferramentas de depuração para Windows link

Forçando uma falha no sistema no teclado link

    
por 30.11.2011 / 01:34
2

Estou inclinado a ir com o que @Greg Askew diz - soa como um cenário clássico de esgotamento do pool de memória do kernel.

Eu pegaria a rota de usar a ferramenta poolmon.exe das ferramentas de suporte do Windows em vez do depurador. O Windows Server tem as tags pool ativadas e a ferramenta poolmon é bastante fácil de usar. Em outra questão de falha no servidor falo um pouco sobre a interpretação do resultado . Eu também tive boa sorte em diagnosticar essas situações (particularmente lidar com vazamentos, que são similares) usando a ferramenta Análise de Desempenho de Logs , também.

    
por 30.11.2011 / 02:03