Qual é o tempo médio de falha (MTTF) de um RAID5?

2

Dado o MTTF T de uma unidade individual (digamos, 100.000 horas) e o tempo médio r leva o operador a substituir uma unidade com falha e o controlador da matriz para reconstruir a matriz (digamos, 10 horas), quanto tempo levará, em média, para que uma segunda unidade falhe enquanto a falha anterior ainda está sendo substituída, condenando a RAID5 inteira N ?

Em meus próprios cálculos, continuo apresentando resultados de muitos séculos - mesmo para grandes valores de N e r , o que significa usar "hot spares" para reduzir o tempo de recuperação é um desperdício ... No entanto, muitas pessoas optam por dedicar um slot em um gabinete RAID para hot spare (em vez de aumentar a capacidade), me deixa confuso ...

    
por Mikhail T. 13.08.2013 / 20:17

1 resposta

4

Vamos tentar um array RAID5 de 10 unidades com um AFR de 3% e um tempo de reconstrução de dois dias e fazer alguns cálculos aproximados:

Um AFR de 3% em 10 unidades significa que, aproximadamente, teremos uma chance de 30% de uma única falha de unidade em um ano.

Se assumirmos um tempo de reconstrução de dois dias, isso significa que a chance de uma das nove unidades restantes falhar durante a reconstrução é de aproximadamente 1,5% (30 * 9 * 2/365). Isso nos dá uma chance de 0,5% (0,3 * 1,5) de uma falha catastrófica com a interrupção do serviço em um determinado ano.

Concordo que um hot spare não é a solução certa para esse problema. Apenas reduz um pouco o tempo de reconstrução.

    
por 13.08.2013 / 20:30