Projetando a confiabilidade de uma matriz de disco:
- Encontre a taxa URE da sua unidade (os fabricantes não gostam de falar sobre a falha de suas unidades, então você pode ter que cavar para encontrar isso. Deve ser 1/10 ^ X onde X é em torno de 12-18 vezes) .
- Decida o que é uma taxa de risco aceitável para suas necessidades de armazenamento †. Normalmente, isso representa < 0,5% de chance de falha, mas pode ser de vários por cento em um armazenamento "scratch" e pode ser < 0,1 para dados críticos.
-
1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
Para matrizes com mais de um disco de paridade ou espelhos com mais de um par de discos no espelho, altere o1
após os Drives in Array para o número de discos com paridade / espelho.
Então, eu tenho um conjunto de quatro unidades WD Green de 1TB em uma matriz. Eles têm uma taxa de URE de 1/10 ^ 14. E eu os uso como armazenamento de rascunho. 1 - (1 - 1TB x 1/10^14byte) ^ 3
= > 3.3%
risco de falha na reconstrução do array após o término de uma unidade. Eles são ótimos para armazenar meu lixo, mas eu não estou colocando dados críticos lá.
† Determinar falhas aceitáveis é um processo longo e complicado. Pode ser resumido como Budget = Risk * Cost
. Portanto, se uma falha custar US $ 100 e tiver 10% de chance de acontecer, você deve ter um orçamento de US $ 10 para evitá-la. Isso simplifica grosseiramente a tarefa de determinar o risco, os custos de várias falhas e a natureza das possíveis técnicas de prevenção - mas você tem a idéia. ‡ [Data Drives] = [Total Drives] - [Parity Drives]
. Um espelho de dois discos (RAID1) e RAID5 tem 1 unidade de paridade. Um espelho de três discos (RAID1) e RAID6 tem 2 unidades de paridade. É possível ter mais unidades de paridade com RAID1 e / ou esquemas personalizados, mas atípicos.
Esta equação estatística vem com suas advertências:
- Essa taxa de URE é a taxa anunciada e normalmente é melhor na maioria das unidades que saem da linha de montagem. Você pode ter sorte e comprar uma unidade que seja de magnitude superior à anunciada. Da mesma forma você poderia ter uma unidade que morre de mortalidade infantil.
- Algumas linhas de produção têm execuções incorretas (em que muitos discos na execução falham ao mesmo tempo), portanto, a obtenção de discos de diferentes lotes de produção ajuda a distribuir a probabilidade de falha simultânea.
- Discos mais antigos são mais propensos a morrer sob o estresse de uma reconstrução.
- Fatores ambientais cobram um pedágio:
- Discos que são ciclados por calor normalmente têm maior probabilidade de morrer (por exemplo, ligá-los / desligá-los regularmente).
- A vibração pode causar todos os tipos de problemas - veja o vídeo no YouTube de TI gritando em uma matriz de disco .
- "Existem três tipos de mentiras: mentiras, mentiras e estatísticas" - Benjamin Disraeli