HP ProLiant DL380 G3 executando o Windows Server 2000 travou entre 6-7: 30h nos últimos 5 dias

5

Eu tenho um HP ProLiant DL380 G3 executando o Windows Server 2000 que está travando todos os dias entre as 6h e as 7h30. Isso começou quando eu mudei um disco rígido com falha 6 dias atrás. Eu olhei para as tarefas agendadas que não tem nada referente a esta questão. Abaixo estão as únicas coisas que vejo no log do sistema e alguns dos arquivos de despejo. Isso pode ser um problema de hardware se isso acontecer em um determinado período de tempo todos os dias? Qualquer ajuda é muito apreciada. Obrigado

O desligamento anterior do sistema às 6:07:55 de 2/7/2012 foi inesperado.

Agente de Informações do Sistema: Integridade: o servidor está operacional novamente. O servidor foi desligado anteriormente pelo servidor automático Recovery (ASR) e acaba de se tornar operacional novamente. [SNMP TRAP: 6025 no CPQHLTH.MIB]

BugCheck 7A, {3, c0000005, 3400028, 0}

Provavelmente causada por: memory_corruption (nt! MiMakeSystemAddressValidPfn + 42)

Acompanhamento: MachineOwner

0: kd > ! analise -v

  • *
  • Análise de verificação de erros *
  • *

KERNEL_DATA_INPAGE_ERROR (7a) A página solicitada dos dados do kernel não pôde ser lida. Normalmente causada por um bloco defeituoso no arquivo de paginação ou no erro do controlador de disco. Veja também KERNEL_STACK_INPAGE_ERROR. Se o status do erro for 0xC000000E, 0xC000009C, 0xC000009D ou 0xC0000185, Isso significa que o subsistema de disco sofreu uma falha. Se o status do erro for 0xC000009A, significa que a solicitação falhou porque um sistema de arquivos falhou em avançar. Argumentos: Arg1: 00000003, tipo de bloqueio que foi mantido (valor 1,2,3 ou endereço PTE) Arg2: c0000005, status de erro (normalmente código de status de i / o) Arg3: 03400028, processo atual (endereço virtual para tipo de bloqueio 3 ou PTE) Arg4: 00000000, endereço virtual que não pode ser paginado no interior (ou conteúdo PTE se arg1 for um endereço PTE)

MODULE_NAME: nt

IMAGE_NAME: memory_corruption

BugCheck A, {0, 2, 1, 804137d6}

Provavelmente causada por: ntkrnlmp.exe (nt! CcGetVirtualAddress + ba)

  • *
  • Análise de verificação de erros *
  • *

IRQL_NOT_LESS_OR_EQUAL (a) Foi feita uma tentativa de acessar um endereço paginável (ou completamente inválido) em um nível de solicitação de interrupção (IRQL) muito alto. Isso geralmente é causada por drivers que usam endereços incorretos. Se um depurador de kernel estiver disponível, obtenha o backtrace de pilha. Argumentos: Arg1: 00000000, memória referenciada Arg2: 00000002, IRQL Arg3: 00000001, bitfield:     bit 0: valor 0 = operação de leitura, 1 = operação de gravação     bit 3: valor 0 = não uma operação de execução, 1 = operação de execução (somente em chips que suportam este nível de status) Arg4: 804137d6, endereço que referencia a memória

MODULE_NAME: nt

IMAGE_NAME: ntkrnlmp.exe

    
por user109717 08.02.2012 / 16:13

2 respostas

8

A primeira coisa a entender aqui é que o Windows 2000 não é mais suportado pela Microsoft. Novas vulnerabilidades de segurança não são mais corrigidas. O Windows Update neste servidor agora não tem sentido. Isso sozinho significa que já passou da hora de se afastar desse servidor.

A segunda coisa a considerar é que, dado o tempo consistente, você pode querer passar por cima de quaisquer tarefas agendadas no sistema que estão ativas durante este período. Também procure outros fatores ambientais - na verdade, qualquer coisa que aumente a carga no servidor em um determinado momento do dia poderia empurrar o hardware que está apenas começando a falhar.

O que traz a próxima coisa: dada a idade do equipamento, é muito provável que algo parecido com um antigo stick de RAM tenha acabado, especialmente porque um dos seus erros é a corrupção de memória. Mas, novamente, isso realmente indica para mim que esse servidor passou do seu fim de vida e deve ser substituído, porque mesmo que você encontre e corrija esse problema, é provável que você tenha outro logo em breve.

    
por 08.02.2012 / 16:22
4

É hora de atualizar. Veja meus comentários aqui na seguinte pergunta: HP DL380 G3 2U Para servidor Web básico em 2012 e Melhor sysadmin WTF?

Como você está trabalhando com hardware de 9 anos, há o risco comum de falha de componentes. Este problema específico pode ser relacionado ao firmware, no entanto. Verifique se você está executando a maior parte das versões firmware recente para o Windows 2000 + DL380 G3 . Preste especial atenção ao versão do BIOS do sistema e Controlador Smart Array (5i? 5300? 641? 6400? ). Veja se isso faz diferença por enquanto.

    
por 08.02.2012 / 16:25