Dois sistemas congelando: provavelmente uma falha no controlador sata RAID / MB?

1

Eu tenho dois sistemas com aproximadamente a mesma idade com problemas semelhantes:

Primeiro sistema:

ASUS P8h67-m-le mother r3 version i7 2600 (3,4ghz)
8gb ram ddr 3 (2x4gb dual channel) RAID 1 via intel RST with 2 hd 1TB WD Green Coolermaster 600W psu Windows 7 64bits professional edition (original license). system protected from power surge via 10kva UPS

Sintomas:

O sistema estava funcionando bem por quase 3 anos agora. No mês passado, o RAID foi degradado e recriado após um desligamento ruim de um aplicativo travado. Depois disso, degradar e reconstruir várias vezes ao desligar usando a energia normal desligada e ligada. Passadas duas semanas, o sistema começou a sair (congelando completamente, às vezes o ponteiro do mouse também congela enquanto os outros mouses ainda se movem). [aparentemente está aumentando a freqüência de congelamentos]
Depois disso tive que resetar o sistema. Toda vez que começou a regenerar o RAID 1 (leva quatro horas para reconstruir o RAID), e agora está congelando uma vez por dia.

Coisas que testei:

  • O novo RAM e a nova PSU apresentam o mesmo problema.
  • Aparentemente, sem RAID (removendo 1 disco rígido) parece resolver o problema.
  • O HDD está bem (testado em outro sistema com teste de estresse, autoteste curto e autoteste longo). Veja também os registros inteligentes parece OK.
  • Processador de teste de estresse aprovado.
  • Os tempos verificados estão corretos, sem sobreaquecimento do sistema.
  • Mova um disco rígido para outro sistema com Intel RST e não possa acessá-lo (o Bios vê a unidade, o controlador não mostra, mas o gerenciador de hardware do Windows mostra), mova a mesma unidade para outro sistema sem RST e CAN ACESSE ISSO???
  • Mover o aplicativo do servidor para outro sistema semelhante resolve o problema, por isso não é um problema do aplicativo, ele deve estar relacionado ao hardware.

Problema: quando o sistema congelou, não recebi nada do log de eventos do Windows. Nenhum aplicativo travar, nenhum problema de RAID, nada. Log RST no Windows não suga nenhum detalhe sobre qual disco rígido ficou fora de sincronia apenas status degradado (pelo menos no meu sistema).

Estranha coisa eu notei: Adicionando outro disco rígido interno para o sistema (fora do RAID para fazer backup) parece acionar RAID degradado e começar a regenerar o RAID 1.

Eu acho que o MB está falhando

Segundo sistema:

I5 processor cant recall specs now Asus MB h81m-k RAID via software Windows 7 64bits. 8GB ram 2x 1TB HDD Caviar blue

Sintomas: Servidor funcionando bem por 2 anos aprox. Um mês atrás: Server Windows RAID sai de sincronia tente ressincronizar nunca terminar (quatro dias à espera)
Aplicativo do servidor começou a travar com freqüência (sem necessidade de reinicialização apenas reabrir app) ou fecha conexões de terminais. Mover o aplicativo do servidor para outro sistema semelhante resolveu o problema, por isso não é um problema do aplicativo.

Testes que fiz:

Formate um disco rígido no sistema (o formato assumiu um dia e nunca foi concluído). Então eu removo o hdd (aquele que fica fora de sincronia e tento em outro sistema). Formato finalizado no horário normal. Parecia inteligente e parece OK. Movido aquele hdd para o sistema e tente resincronizar o Soft RAID novamente: nunca concluí a re-sincronização das unidades. Alterar PSU & RAM não resolveu problema Remover o HDD que ficou fora de sincronia não resolveu o problema, pois o aplicativo trava de qualquer maneira.

O que ambos os sistemas têm em comum:

  • uso de dois anos aproximadamente
  • leitura / gravação em HDD pesada
  • aplicativos do servidor são diferentes
  • mesma marca de disco rígido.
  • O HDD parece bem em outros sistemas.
  • Mesmo sistema operacional ambos cópia legal
  • memória e psu não são a causa.
  • Nenhum sinal de dano visual no MB
  • Ninguém tocou nos sistemas internos.

Meu palpite é que, de alguma forma, portas / controladores sata não conseguem lidar com intensa atividade de HDD e degradadas / quebradas com o tempo gerando falhas que parecem diferentes em ambos os sistemas devido à natureza de diferentes tipos de raids.

    
por Ramiro85 25.03.2016 / 21:13

1 resposta

0

Não apenas reconstrua seu ataque repetidamente! Descobrir por que a placa falhou na unidade e (muito provavelmente) substituir a unidade. Você pode usar um utilitário de linha de comando chamado smartctl para verificar a unidade - se alguma coisa tiver mais de 500-1000 erros, ou se houver um número de erros que continua aumentando, provavelmente é hora de substituir a unidade.

Se você tiver que reconstruir uma unidade invadida depois de encaixá-la em outra coisa, é porque a informação específica do ataque ficou um pouco estragada (os cartões dell / LSI perc têm essa informação extra na unidade, mas eu nunca acionou uma reconstrução montando manualmente a unidade). Por fim, todos os tipos de problemas de hardware podem causar o congelamento do sistema. Um cartão de invasão ruim pode causar um congelamento, assim como problemas elétricos nos discos rígidos ou problemas no controlador do disco rígido. Ocasionalmente, problemas de corrupção do sistema de arquivos acionam um crashdump do kernel, mas isso deve ser realmente visível e óbvio se essa for a causa do problema. Algo estranho eu vi uma vez foi o calor de um gasto rolamentos em um disco rígido estavam causando problemas de temperatura com um computador (laptops são propensos a isso) - como um disco rígido desgastado poderia causar problemas de temperatura com sua placa de vídeo que poderia congelar totalmente tudo . Não faz mal checar as mensagens do kernel logo antes da sua máquina congelar, / var / log / kern no Debian / Ubuntu. Ter uma fonte de alimentação insuficientemente poderosa pode causar falhas. Em geral, tente desabilitar o hardware desnecessário até que o sistema pare de travar:).

    
por 25.03.2016 / 22:49