Por que o URE falha na reconstrução do ataque e “torna o RAID 5 inutilizável” [fechado]

1

Sinto muito, mas não consigo compreender de um ponto de vista teórico.

Por que a execução de um único URE, o controlador de ataque decide que todo o resto está arruinado e acaba morrendo? Estúpido. Um array de 40 TB é inútil porque 1mb é perdido?

Reconstrua tudo, então faça uma checagem de checksum em todos os arquivos se o sistema de arquivos suportar. Mesmo se não, é apenas um caso de ser solicitado com "arquivo corrompido" ao tentar abrir os arquivos.

Essa coisa toda apenas grita tecnologia de hardware estagnada para mim.

Parece que as pessoas simplesmente pulam em frente de "você não deveria confiar em RAID para backup". Bem, eu não estou interessado nisso. Sim RAID é para disponibilidade, não durabilidade. O fato permanece, você ainda pode recuperar ~ 99% do RAID se a reconstrução pular apenas o URE.

    
por Sleeper Smith 11.01.2014 / 14:00

2 respostas

4

O problema não é fabricantes preguiçosos ou tecnologia antiga. É um mal-entendido no objetivo do RAID. * 1 O objetivo do RAID é manter o sistema de arquivos utilizável após a morte de um disco. Não para substituir um backup de garantia de uma reconstrução bem sucedida.


Deixe-me expandir isso com um exemplo prático:
Você é o cara de TI para um escritório com 100 pessoas. Você precisa construir um servidor de arquivos para eles.

Agora, se você usasse um único disco para isso e o disco morresse, 100 pessoas estariam escolhendo o nariz até que você substituísse o disco e restaurasse os backups. E você precisaria fazer backup com bastante frequência (por exemplo, todos os dias).

Agora você usa o RAID. O único disco morre, mas o array permanece disponível em um estado degradado. Todos os arquivos ainda estão acessíveis e todos podem continuar trabalhando. Às 8 PM * 2 você executa um novo conjunto de backups, encerra o servidor, substitui o disco quebrado e restaura os dados. Ou com uma reconstrução ou de backup. Todos podem continuar a trabalhar e nenhum dado é perdido.


Agora, existem algumas suposições aqui:

  1. Você tem backups. Realmente, você deve tê-los, pois o RAID não protege contra algumas coisas, como roubo de servidor, raio, incêndio, ...
    RANT OVER .
  2. Uma reconstrução de disco pode levar muito tempo quando você tiver discos grandes. Isso foi bom com 80MB antigos com qualificações de servidor. Se você usar unidades de consumo enormes (multi TB), levará muito tempo. Restaurar a partir do backup pode ser mais rápido. Só por esse motivo, é necessário considerar fazer e testar backups ao trabalhar com uma matriz de 40 TB.

Observe que, ocasionalmente, um setor em um disco falhará. Isso é um fato da vida. Se acontecer raramente e as unidades tiverem uma maneira de contornar isso (realocando setores, consulte também TLER ). Se você tem discos enormes e tenta reconstruí-los, então está lendo uma enorme quantidade de setores. As chances de encontrar um URE são pequenas, mas diferentes de zero. Se isso acontecer, volte para os backups.

* 1 : RAID como RAID1 (mirror), RAID 5, RAID 6 ou uma combinação como RAID10.

* 2 Ou sempre que todos foram para casa. Um email com "manutenção de emergência às 17h!" ajudaria aqui

    
por 11.01.2014 / 17:55
2

Não, os fabricantes de RAID não são burros nem preguiçosos.

Para colocar da forma mais simples possível: Se você está tentando reconstruir dados (especialmente da paridade, como no RAID5, por exemplo), e há um erro de leitura irrecuperável ao ler a fonte que você está construindo, então é impossível reconstruir corretamente o array dessa fonte corrompida.

    
por 11.01.2014 / 17:39

Tags