três discos com erros ECC no ataque 3ware em duas semanas

1

Eu tenho um servidor que mantenho para um cliente, é um computador baseado em Intel Nehalem, portanto não é novo, mas está em funcionamento. Ele tem uma placa 3ware 9650SE-24M8 com 20 unidades conectadas e 4 slots vazios, configurados em 5 arrays raid5. Três dessas matrizes são compostas de unidades de 2 TB, as outras duas de 3 TB. Nas duas últimas semanas, perdemos 3 unidades de 3 TB da mesma matriz, duas no mesmo dia. Fazemos backups noturnos, portanto, não há perda de dados, mas o tempo de inatividade é caro, assim como os discos de substituição. por perdido quero dizer que o cartão está relatando e status de erro ECC. as unidades de 2 TB são aproximadas 25.000 horas de operação, as 3 TB estão se aproximando de 10000 horas de operação.

As temperaturas ambientes são de aproximadamente 25 ° C, enquanto as unidades são (de acordo com o smart) em marcha lenta a cerca de 28-30 ° C. O sistema operacional é o fedora Linux 13 amd64 (Eu tenho tentado ser atualizado por seis meses, mas não consigo ter uma operação estável o suficiente para me sentir pronto para isso).

Não sei o que fazer neste momento, até este momento houve duas unidades que morreram, ambas com 1 TB e bastante antigas, e com vários meses de diferença. ajuda ou sugestões?

    
por Dylan 05.09.2013 / 01:17

0 respostas