RAID problem talvez? Faz o servidor não responder após uma hora de tempo de atividade

1

Após uma falha completa de uma pessoa de TI no escritório do meu cliente para atualizar os discos rígidos em um servidor (Windows 2003 RC2), nosso servidor agora é basicamente inutilizável. A máquina inicializará, mas após cerca de uma hora de atividade, algo acontece, não sei ao certo, e a 2ª CPU fica completamente vermelha no Gerenciador de Tarefas. O modo do kernel e o uso da CPU estão em 100%.

O log de eventos do sistema é preenchido com esse erro - 4-5 por minuto:

O driver para o dispositivo \ Device \ Scsi \ viamraid1 detectou um tempo limite de porta devido à inatividade prolongada. Todos os barramentos associados foram redefinidos em um esforço para limpar a condição.

Até deixei isso acontecer por 9 horas hoje depois que saí e havia mais de 2000 dessas mensagens naquele período.

O servidor está inutilizável e tornou meu cliente completamente incapaz de fazer negócios. Eu não sou um cara de TI (sou programador), é o Dia de Ação de Graças e estou completamente fora do meu elemento.

Alguém tem alguma ideia sobre essa mensagem? Já viu isso antes? Já resolveu isso?

Mais informações: O servidor tem duas unidades em uma matriz RAID 0 (eu acho, isso ou RAID 1). Unidades SCSI. O cara de TI anterior ficou tão confuso que ele tirou as unidades do RAID supostamente, e agora ao inicializar, ele tem que inicializar o drive 0 apenas o suficiente para ler boot.ini, então temos que escolher inicializar a partir da unidade 1. Não podemos simplesmente inicializar a unidade 1 por algum motivo.

Primeiro, achei que o problema era relacionado ao SQL Server, pois logo antes de o servidor ser iniciado, tínhamos iniciado uma consulta intensiva, mas mesmo depois de interromper todos os serviços SQL, reinicializado, etc., ele ainda era ativado depois de um hora. NADA estava acontecendo no servidor. Quer dizer, ninguém está no escritório, nenhum processo foi iniciado (que eu saiba), etc. Acabou de sair.

    
por Matt Dawdy 27.11.2010 / 04:27

1 resposta

2

É um chipset VIA SATA, que faz com que minha pele fique em um "servidor". Ele tem problemas de compatibilidade conhecidos com uma variedade de hardware, tudo de fontes de alimentação que produzem voltagem da especificação da VIA para os HDs da Seagate com firmware específico. Se você conseguir selecionar entre as duas unidades, então você não está usando o hardware RAID, possivelmente o software, mas não pode dizer sem mais informações.

Uma adivinhação: o chipset não é compatível com os novos discos rígidos, e quando eles fazem um auto-teste parcial, o chipset enlouquece jogando um erro de tempo limite (parece ser o tempo certo).

Eu começaria procurando o mais novo firmware para o MB, chipset e HDs. Em seguida, os drivers mais recentes para o chipset e o controlador SATA.

    
por 27.11.2010 / 04:37