Como faço para solucionar a causa raiz de um servidor com janelas suspensas (2003)?

1

Eu tenho um par de servidores Windows (2003 Server) ambos executando o MS SQL Server (2008 EE), cada um travando a cada poucos meses. Isso vem ocorrendo de forma intermitente :( nos últimos 15 meses, praticamente desde que começamos a usar os servidores.

Os sintomas são os seguintes:

  • Não consigo acessar a área de trabalho remota para solucionar problemas; quando eu tento, fico preso em uma tela preta em branco e nunca recebo um aviso de login
  • ainda posso pingar os servidores
  • Eu posso ainda abrir uma conexão SQL com o servidor, e, CURIOUSLY / BIZARRELY, quando eu faço um "select getdate ()", o tempo que ele retorna parece estar preso na fração exata de um segundo quando (eu presumo) o servidor pendurado. Tentativas repetidas de fazer "select getdate ()" continuam recebendo a mesma data, sugerindo que o relógio está congelado.
  • Falha ao compartilhar arquivos no servidor suspenso com a mensagem de erro: "\ Nome_do_servidor não está acessível. Talvez você não tenha permissões para usar esse recurso de rede. Entre em contato com o administrador deste servidor para descobrir se você tem permissões de acesso. O relógio do servidor não está sincronizado com o relógio do controlador de domínio principal. " Isso é consistente com um relógio congelado.
  • Pós-reinicialização, se investigar os logs do Visualizador de Eventos do Windows, posso ver muitos acessos de segurança (vindos de mim e de outros) que reconheço como tentativas de login durante o período "inativo", mas todos no log de segurança estão associados a esse mesmo timestamp de quando o servidor foi interrompido. Isso também sugere que o relógio está congelado. Não há uma causa clara nos logs de eventos do aplicativo ou do sistema.

Eu tenho uma conta de administrador local no servidor e estou no processo de obter uma conta de administrador com credencial de domínio para melhor acesso de administrador remoto.

A HP supostamente suporta essas máquinas e tem algum acesso de baixo nível ao ILO2, mas elas parecem incapazes de encontrar a causa raiz.

Uma reinicialização "consertará" o problema, mas eu gostaria de obter a causa raiz e resolver o problema. Alguém já viu algo como esse estranho comportamento do relógio ?! (Se fosse apenas um servidor, talvez eu diria um mau relógio de hardware, mas dois?) Alguém pode me avisar sobre o que devo tentar solucionar esse tipo de situação para encontrar a causa raiz (ou o que devo dizer à HP para tentar ?)

    
por GregW 27.04.2011 / 15:15

2 respostas

1

Como Nixphoe apontou - Logs de Eventos, Registros de Eventos, Registros de Eventos seriam o primeiro lugar para procurar.

Ele "soa" como se você pudesse ter algum tipo de condição de vazamento de memória com algo em comum entre os aplicativos instalados e / ou as configurações. Existem vários recursos disponíveis sobre o assunto do uso de memória de rastreamento. O acompanhamento no tempo pode ser necessário para identificar a aplicação e / ou condição ofensiva.

    
por 27.04.2011 / 18:21
1

User48838 está certo. Parece um vazamento de memória.

Para detectar vazamentos de memória, confira este artigo da Microsoft: link Isso explica exatamente o que você tem que olhar em termos de contadores de desempenho.

Além disso, existe uma ferramenta muito útil da Microsoft, Ferramenta de diagnóstico de depuração . Eu usei algumas vezes e realmente faz o trabalho. Aqui estão algumas instruções sobre como usá-lo.

Você pode nos dar mais detalhes sobre o servidor? Especificações, NICs, SO sp e bitsize, etc? Eu sei que houve um problema com o Win 2k3 + SQL 2008 em servidores HP Proliant que resultou em um desvio de relógio ou em um servidor que não responde. No entanto, não tenho certeza se isso se aplica neste caso porque não tenho detalhes suficientes, mas dou-lhe o artigo da Microsoft apenas no caso: link

Espero que isso ajude.

    
por 25.05.2013 / 20:32