Como rastrear a causa do travamento do Windows Server 2008?

3

Eu tenho o Windows Server 2008 em execução no VMware.

Recentemente, começou a travar praticamente todos os dias, com 100% de utilização contínua da CPU e sem resposta na GUI.

Existe uma técnica passo-a-passo para rastrear a origem deste problema?

Quais logs eu veria?

p.s. O problema apareceu na época em que tentei desinstalar o Acronis, e ele foi exibido em azul. No entanto, não tenho certeza se as falhas atuais estão relacionadas à Acronis.

    
por Contango 03.07.2009 / 13:38

8 respostas

1

2009-07-06 - Estou pensando que é o disco rígido.

Eu fiz um chkdsk e ele caiu com os mesmos sintomas de antes do meio do chkdsk. Estou usando um Solid State Drive (SSD), o "SSD PQI DK9128GD6R000A03 128GB SATA 2.5", com um MTBF de 1.500.000 horas. Apesar de ter um MTBF de 133 anos, parece ter morrido após 2 semanas ou uso normal! Para checar minha teoria, copiei os arquivos VMware para um disco rígido padrão, executei o chkdsk e funcionou como um encanto.Vou ver se o sistema sobreviveu a uma semana de tempo de atividade e, se isso acontecer, posso oficialmente defenestratar meu SSD PQI .

2009-07-07 - O sistema caiu novamente. De volta à prancheta de desenho.

2009-07-08 - Demorei mais 20 dias para instalar o SSD. Vamos ver se ele trava de novo (foi).

2009-07-09 - desinstalou o OpenVPN, atualizou para a versão mais recente do Skype, atualizou para o SQL 2008 para o SP1, removeu o TeamViewer. Vamos ver se ele falha novamente (aconteceu no meio de um backup do Acronis).

2009-07-09 - Suspeito que a quantidade de memória virtual disponível na máquina VMware que executa o servidor seja muito pequena, estou com 4 GB no momento. Aumentando-o (isso não teve efeito).

2009-07-09 - descobriu que, se o contêiner VMware que executa o Windows Server 2008 travar com 100% de utilização da CPU e eu pausar / reiniciá-lo, ele interrompe e retoma a operação! Isso tende a apontar para um problema com o VMware ou seu sistema operacional host (que é o XP), em vez de um problema no próprio Windows Server 2008. Chegando muito perto do cerne do problema agora.

2009-07-09 - O Windows Server 2008 falha apenas quando o SO host está sobrecarregado. Aumentado o número de CPUs que ele pode utilizar para 2 CPUs, isso parece ter resolvido o problema.

Em conclusão:

  1. O problema original foi causado por um disco rígido defeituoso com setores defeituosos (na verdade, era um SSD de 128GB do PQI - não esperaria que um Solid State Drive (SSD) falhasse duas semanas após a compra, mas isso aconteceu).
  2. O próximo problema foi causado pelo sistema operacional host que executava o VMware sob carga alta. Corrigido isso alocando mais RAM e aumentando o tamanho do arquivo de paginação.
  3. Se isso acontecer novamente, eu tenho uma solução alternativa (basta pausar / reiniciar o VMware v6.5 para "descongelar" o Windows Server 2008 sendo executado dentro dele).

Problema resolvido, obrigado pessoal!

    
por 09.07.2009 / 19:19
5

Você também pode usar o "Monitor de Confiabilidade e Desempenho" disponível no Windows Server 2008.

Como você pode ver abaixo, ele mantém automaticamente um registro da confiabilidade do servidor e atribui a ele uma "pontuação de confiabilidade" de 10. Essa pontuação começa em 10 e cai se o servidor sofrer qualquer falha ou desligamento inesperado .

Ele ainda mantém um registro de quais programas foram instalados e quando, para que você possa diagnosticar se um programa instalado pareceu causar mais falhas.

Você também pode configurá-lo para registrar continuamente o uso da CPU de programas, para ver qual programa está causando 100% de utilização da CPU.

    
por 10.07.2009 / 12:07
3

O log de eventos do sistema. O log de eventos do aplicativo. Google a mensagem do BSOD. Verifique a integridade do disco com o chkdsk.

    
por 03.07.2009 / 14:01
3

Se houver um despejo de memória como c: /windows/memory.dmp, você poderá usar a Depuração Ferramentas para Windows para analisá-lo. Normalmente você quer procurar por drivers de terceiros no despejo.

    
por 05.07.2009 / 00:19
3

Você tem duas opções:

  • Veja os registros para tentar descobrir o que causou problemas anteriores
  • Procure sinais de coisas que poderiam levar a picos de CPU na tentativa de replicar o problema

Os logs são um bom começo para olhar para o histórico do sistema, se você souber a hora em que os problemas iniciam ou os logs estão silenciosos o suficiente para você perceber um padrão que leva à CPU vinculada. Se o sistema BSOD você pode jogar o dmp em windbg.

Se você está procurando coisas que podem levar a picos de CPU:

  • Process Explorer de sysinterals: procure processos estranhos ou identificadores abertos para arquivos ou compartilhamentos de rede que não existem mais. Pode apontar na direção certa para replicar o problema
  • Monitor de confiabilidade e desempenho do Windows / Perfmon: Você pode ver como cada processo está agindo em relação ao uso de disco / CPU / memória / rede, bem como centenas de outros contadores. Eles podem lhe dar uma pista sobre o que está acabando com a VM antes que aconteça.

Depois de ter um bom candidato para os problemas, você pode ativar o Process Monitor a partir do sysinternals. Ele irá despejar cada arquivo e interação de registro que todo processo no sistema está fazendo em tempo real. Ele pode até mesmo ser configurado para carregar na inicialização e capturar tudo até que você execute a GUI em seguida (seja avisado que isso é MUITO de dados, então é aconselhável se você puder replicar o problema rapidamente após a inicialização)

Há um monte de buracos de coelho que uma análise de causa raiz pode derrubá-lo, sinta-se à vontade para nos informar sobre o andamento.

    
por 05.07.2009 / 10:13
2

Se for uma triagem azul, confira o arquivo de minidesulta: link

... isso lhe dirá (normalmente) o driver ou parte do software que causou o travamento.

    
por 03.07.2009 / 16:49
1

Falha exatamente a cada 24 horas (no mesmo horário todos os dias)?

Nesse caso, possivelmente há um processo agendado que causa a falha.

    
por 03.07.2009 / 14:04
1

Você poderia, por favor, explicar o que você quer dizer com acidente, se o servidor está encontrando BSOD ou se está pendurado a 100% da CPU.

Para a solução de problemas, você pode fazer o log do servidor em um servidor syslog, ser executado em intervalos, uma lista de scripts processa um uso de recursos, gravando sua saída em um compartilhamento de rede.

Se o servidor fizer o bsods, tente pesquisar o código de erro mencionado no bsod.

Além disso, talvez a desinstalação do acronis tenha deixado um log de erros com algumas informações na pasta de instalação.

    
por 03.07.2009 / 14:26