Quão confiáveis são as atuais unidades de disco de grau consumidor de 2 TB?

5

A maioria das unidades de disco SATA são classificadas com "1 erro de leitura não recuperável por 10 ^ 14 bits lidos".

O que isso significa?

10 ^ 14 bits é apenas 12,5 TByte. Se eu tiver um disco cheio de 2 TByte e copiá-lo para um segundo disco, existe, de fato, uma chance de aproximadamente 1/6 de que um dos arquivos esteja corrompido?

Se isso acontecer, o bloco afetado será marcado e realocado? Acho que sim, porque se a leitura for bem-sucedida na repetição, não será um erro de leitura não recuperável.

No entanto, estou usando muitos desses drives de disco há alguns anos, eu não notei nenhum aumento na contagem de bad blocks, e também os logs do controlador RAID não mostram nenhum problema de leitura.

EDIT: Os controladores RAID fazem uma leitura de patrulha semanal de cada disco, o que equivale a cerca de 100 TBytes por ano. Isso ainda é menos que 10 ^ 15 bits.

Por outro lado, houve 4 falhas no disco total de 50 discos dentro de 2 anos, o que aumenta a taxa de erro.

Não tenho dados estatisticamente significativos suficientes para fazer declarações, mas, no meu caso, a taxa de erro real parece estar entre 10 ^ 14 e 10 ^ 15, o que é consistente com a especificação.

    
por nn4l 20.04.2014 / 10:02

3 respostas

5

A estatística dada 1 erro de leitura em 10 ^ 14 é apenas isso, um ponto de dados estatísticos. Isso não significa que em qualquer disco você verá erros e não diz que isso necessariamente acontece desde o início da vida útil do disco até o fim. Significa apenas que o disco não é tão alto quanto os discos corporativos e, com base na minha experiência (desenvolvendo sistemas de armazenamento corporativo), o consumidor e os discos corporativos nunca atingem os números MTBF completos. Eu não me lembro de uma grande diferença entre eles também. Houve alguma diferença, mas não muito grande.

Quando um bloco está sendo lido e isso falha, o disco colocará o setor em uma lista de espera. Quando o setor for escrito em seguida, a gravação será tentada e o setor será verificado, se isso funcionar, nada será feito mais adiante. Se a verificação falhar, o setor será realocado.

Em muitos casos, os discos e o RAID podem corrigir setores defeituosos em tempo real, mesmo antes de se tornarem um grande problema. Há uma varredura de mídia em segundo plano do disco e a limpeza do disco da matriz RAID e ambas funcionam para proteger os dados. Os arrays de armazenamento corporativo usam verificações mais refinadas para garantir que até mesmo setores de disco levemente problemáticos sejam tratados e corrigidos.

Existem outros problemas com o uso de unidades consumidoras em uma matriz RAID, o TLER é um deles, essencialmente significa que você pode perder o disco para até mesmo um setor defeituoso, pois o disco pára de responder até conseguir ler o setor. TLER é realmente o método para evitar que o RAID chamando o disco falhou quando é apenas um pequeno problema de mídia. Se você tiver o TLER ativado, o disco irá desistir rapidamente do setor e deixar o RAID lidar com a falha em seu nível.

    
por 20.04.2014 / 22:36
4

Você deve ter cuidado com drives RAID e de consumo. Dependendo do seu controlador RAID, ele irá disparar se o disco demorar muito para responder por não ter TLER .

O que acontece com um bloco irrecuperável é descrito aqui

When a sector is found to be bad or unstable by the firmware of a disk controller, the disk controller remaps the logical sector to a different physical sector. In the normal operation of a hard drive, the detection and remapping of bad sectors should take place in a manner transparent to the rest of the system and in advance before data is lost. It should be remembered, however, that the damaging of the physical body of the hard drive does not solely affect one area of the data stored. Very often physical damages can interfere with parts of many different files.

Quanto à sua pergunta sobre a chance de 1/6 de um bloco estar corrompido, isto é verdade para o bloco, no entanto, Sistemas Operacionais / Sistemas de Arquivos têm suas próprias maneiras de lidar com blocos defeituosos, e recuperação a partir dele. É bem possível que o OS / FS seja capaz de recuperar o bloco ruim por si próprio, sem que você perceba qualquer corrupção de arquivos.

    
por 20.04.2014 / 11:36
0

O que isso significa é que seu controle de qualidade é definido de forma que você pode esperar que haja uma leitura irrecuperável em cada leitura de 12,5 TB. Isso não significa que haverá um, apenas que é onde o controle de qualidade foi calibrado.

Isso tem algumas implicações bastante sérias quando você considera grupos RAID - um conjunto 5 + 1 RAID 5 de unidades de 2 TB está se aproximando desse número. Uma reconstrução de RAID requer uma nova verificação de todo o grupo de RAID e, assim, suas chances de uma falha de reconstrução começam a se tornar significativas. Soluções parciais envolvem grupos RAID menores ou usam RAID 6, mas isso vem com suas próprias consequências. (RAID-6 em particular, enquanto inteligente, vai queimar você em penalidade de gravação, especialmente em discos "mais baratos / mais lentos").

É por isso que os 'discos do servidor' são 'tão caros' - uma das principais razões é que eles tendem a ser 1/10 ^ 16 - isso diminui enormemente as chances de falha de composição.

Mas você deve notar - só porque a taxa de erro esperada é de 12,5 TB, isso não significa que você não terá azar. RAID nunca é um substituto para backups. (Mas eu suspeito que você já saiba disso.)

    
por 22.04.2014 / 11:55