Problemas estranhos com diferentes controladores de raid. Pode ser devido a uma questão ambiental?

1

Estamos trabalhando em um projeto que envolve hardware diferente, todos hospedados em um único rack. As máquinas são principalmente servidores IBM: 2 x206 (scsi), 1 x226 (scsi), 2 x3400 (sata) e outra máquina montada com controladores sata. Estamos usando vários controladores de ataque. Algumas máquinas possuem apenas um controlador Serveraid, outras possuem um ou mais controladores nem sempre os da Adaptec. Todos os firmwares e bios são atualizados. Todos os servidores e dispositivos conectados estão sobrecarregados.

Nos últimos 4 meses, experimentamos vários comportamentos estranhos em nosso hardware. De repente e aleatoriamente perdemos 2 ou 3 drives e os volumes de ataque param para funcionar. Isso pode acontecer uma vez por semana, mas nunca na mesma hora do dia ou da semana.

Na maioria das vezes, um processo de reconstrução corrige o problema, às vezes perdemos os dados. Muitas vezes só precisamos desconectar os controladores de raid, reiniciar o servidor e o problema é resolvido.

No início, pensamos que era devido a bugs de firmware, mas fizemos uma atualização precisa para cada controlador de máquina e raid e não há mais nada que possamos fazer no hardware. Nós realmente não temos nenhuma pista sobre o que está causando todos esses problemas.

Estamos começando a pensar que é um problema ambiental, mas não sabemos se pode haver algo interferindo em nosso hardware. Você já ouviu falar de algo assim? Você tem alguma ideia de como investigar o problema?

    
por damko 11.02.2010 / 12:29

2 respostas

1

Isto pode ser facilmente devido a erros de firmware, não no controlador, mas nas unidades. Visto com muita frequência para contar.

    
por 11.02.2010 / 12:45
0

Se eu tivesse unidades de diferentes fornecedores em controladores RAID de diferentes fornecedores em servidores de diferentes fornecedores com falhas em uma taxa anormal, começaria a analisar as altas temperaturas e o fluxo de ar insuficiente na sala do servidor como uma possível causa do problema.

    
por 11.02.2010 / 14:34

Tags