Os sistemas RAID 5 são adequados para tamanhos de disco maiores? [fechadas]

1

Por que é geralmente considerado que os sistemas RAID 5 não são adequados para tamanhos maiores de disco? É a mesma verdade para o RAID 6?

Referência: link

    
por Anthony 09.05.2015 / 14:07

5 respostas

4

O motivo pelo qual o RAID 5 pode não ser confiável para tamanhos de discos grandes é que, estatisticamente, os dispositivos de armazenamento (mesmo quando estão funcionando normalmente) não estão imunes a erros. Isto é o que é denominado UBE (às vezes URE), para a taxa Unrecoverable Bit Error , e é citado em erros completos por número de bytes lidos. Para discos rígidos rotacionais de consumidor, essa métrica é normalmente especificada em 10 ^ -14, o que significa que você obterá uma leitura de setor com falha por leitura de 10 ^ 14 bytes. (Por causa de como os expoentes funcionam, 10 ^ -14 é a mesma coisa que um por 10 ^ 14.)

10 ^ 14 bytes podem soar como um grande número, mas na verdade são apenas alguns passes completos de leitura em uma unidade moderna (digamos de 4 a 6 TB). Com o RAID 5, quando uma unidade falha, existe uma redundância no , o que significa que qualquer erro não pode ser corrigido: qualquer problema em ler qualquer uma das outras unidades e o controlador (seja hardware ou software) não saberá o que fazer. Nesse ponto, sua matriz é quebrada.

O que o RAID 6 faz é adicionar um disco de redundância segundo à equação. Isso significa que mesmo se uma unidade falhar completamente, o RAID 6 poderá tolerar um erro de leitura em uma das outras unidades da matriz ao mesmo tempo e ainda reconstruir seus dados com êxito. Isso dramaticamente reduz a probabilidade de um único problema fazer com que seus dados fiquem indisponíveis, embora não elimine a possibilidade; no caso de uma unidade ter falhado, em vez de uma unidade adicional precisar desenvolver um problema para os dados serem irrecuperáveis, agora duas unidades adicionais precisam desenvolver um problema no mesmo setor para que haja um problema.

É claro que o valor de 10 ^ -14 é estatístico , da mesma forma que os discos rígidos rotacionais comumente têm uma estatística AFR (Taxa de Falha Anual) citada em a ordem de 2,5%. O que significa que a unidade média deve durar de 20 a 40 anos; claramente não é o caso. Erros tendem a acontecer em lotes; talvez você consiga ler 10 ^ 16 ou 10 ^ 17 bytes sem nenhum sinal de problema e, em pouco tempo, obterá dezenas ou centenas de erros de leitura.

O RAID realmente torna esse último problema pior expondo as unidades a cargas de trabalho e ambiente muito semelhantes (temperatura, vibração, impurezas de energia, etc.). A situação é ainda mais agravada pelo fato de que muitas matrizes RAID são comissionadas e configuradas como um grupo, o que significa que, no momento em que a primeira falha ocorrer, todas as unidades da matriz estarão ativas por quase a mesma quantidade. de tempo. Tudo isso torna as falhas correlacionadas muito mais prováveis de acontecer: quando uma unidade falha, é muito provável que as unidades adicionais sejam marginais e possam falhar em breve. Apenas o estresse da leitura completa passar junto com a atividade normal do usuário pode ser suficiente para empurrar uma unidade adicional para a falha. Como vimos, com o RAID 5, com uma unidade não funcional, o erro de leitura qualquer em qualquer outro local causará um erro permanente e é altamente provável que simplesmente interrompa sua matriz. Com o RAID 6, você tem pelo menos alguma margem para erros adicionais durante o processo de resilvering.

Como o UBE é declarado de acordo com o número de bytes lidos, e o número de bytes lidos tende a se correlacionar razoavelmente bem com quantos bytes podem ser armazenados, o que costumava ser uma boa configuração com um conjunto de unidades de 100 MB pode ser configuração marginal com um conjunto de unidades de 1 TB e pode ser completamente irrealista com um conjunto de unidades de 4-6 TB, mesmo se o número físico das unidades permanecer o mesmo. (Em outras palavras, dez unidades de 100 MB contra dez unidades de 6 TB.)

É por isso que o RAID 5 é geralmente considerado inadequado para matrizes de tamanhos comuns atualmente e, dependendo das necessidades específicas, o RAID 6 ou 1 + 0 geralmente é incentivado.

E isso nem sequer toca nos detalhes que o RAID não é um backup .

    
por 09.05.2015 / 17:43
2

Consulte CALCULADORA DE DISCO RAID E IOPS e Uma explicação de IOPS e latência

Para o cálculo do RAID de falha, você pode usar fórmulas.

  • N é o número do disco rígido,
  • p - a probabilidade de falha
  • q = (1-p) - confiabilidade.

A suposição de que a probabilidade de falha do HDD é igual.

Para maior clareza, a probabilidade de falha de diferentes RAID em 5 anos de trabalho e depois na tabela.

AprobabilidadedefalhaéfalhadeRAIDDP(Synology)doRAID6.Usep-confiabilidadedapesquisadedatacenterdoGoogle.

A probabilidade de procedimento de recuperação de falha RAID 5, dependendo da capacidade.

    
por 09.05.2015 / 19:24
1

Responda à sua primeira pergunta. URE. Erro de leitura irrecuperável. O disco pode estar OK, mas os dados não podem ser lidos, impedindo a reconstrução, que é a mesma no final de um disco com falha em termos de reconstrução. Eu pensei que o artigo deu a visão adequada em um nível básico.

Responda à sua segunda pergunta. O mesmo é verdadeiro para o RAID 6, mas para matrizes maiores. Eu acho que o ponto era se você está preocupado com um URE para um array de 12 TB porque uma especificação diz que você terá 1 URE para cada 12TB, então você precisa de um disco extra redundante para cada 12TB adicional para lidar com todos os UREs que você deve esperar encontrar.

Isso é uma reconstrução de 12 TB do RAID 5 com a mesma chance de falha (por uma taxa de URE de 10 ^ 14) como um array RAID 6 de 24 TB. Novamente, isso está extrapolando no artigo.

    
por 09.05.2015 / 16:46
0

O motivo é o tempo de recuperação. A partir da média 2TB de tamanho o tempo de recuperação pode se tornar muito grande e a probabilidade de falha no período de recuperação aumenta muito. Com o RAID6 você pode recuperar-se da falha de dois discos, mas com o aumento do tamanho dos discos 6 conseguem o mesmo problema.

    
por 09.05.2015 / 15:42
0

O raciocínio UBE descrito nas outras respostas é bom o suficiente, mas uma preocupação maior é o risco de uma falha na segunda unidade durante a reconstrução.

Lembre-se de que, embora a matriz esteja sendo reconstruída, os discos estão operando com uma carga de 100% e, devido ao tamanho dos discos modernos, a reconstrução pode levar dias. A menos que os discos sejam de nível corporativo, eles não vão gostar disso. Essa é a principal razão pela qual o RAID5 não é adequado para tamanhos de disco maiores.

Você também deve considerar que, quando as pessoas montam matrizes de disco, elas normalmente solicitam os discos de um único fornecedor. Isso significa que todos os discos da matriz serão do mesmo lote de fabricação. Se for um lote ruim, isso pode significar redução do tempo de vida, confiabilidade reduzida ou até mesmo falhas múltiplas em um curto período de tempo. Mesmo que não seja um lote ruim, se as unidades começarem a chegar ao fim da vida útil, haverá uma chance maior de que várias unidades falhem em pouco tempo. É uma prática recomendada ao criar uma matriz para dividir a ordem em vários fornecedores ou solicitar a um único fornecedor que envie discos de diferentes lotes, se possível. Dessa forma, é mais provável que os discos morram em momentos diferentes e é improvável que você consiga várias unidades de um lote defeituoso. Recalls acontecem.

Olhe para o RAIDZ. É ótimo. Especificamente, observe o RAIDZ3 e o RAIDZ aninhado. Synology tem algo chamado SynologyHybrid Raid, que tem alguns benefícios realmente bons. Você pode atualizar os tamanhos de unidade em sua matriz apenas substituindo uma unidade por vez e aguardando a conclusão das reconstruções, por exemplo.

    
por 09.05.2015 / 19:00