É seguro marcar um disco ok, em uma matriz de raid 5 degradada?

4

O Intel Matrix Storage Console 8.9 mostrou um array degradado com uma falha no disco. Ainda oferece a opção de marcar o disco como ok e reconstruir o array? Quando seria apropriado fazer isso? Avalia a falha do disco incorretamente? Por que oferecer essa opção?

Este é um servidor de teste, e eu tenho backups, então não estou muito preocupado e tentei marcar o disco como ok e ele reconstruiu o volume sem indicar um problema adicional. MAS existe algum problema?

Além disso ...

As ótimas respostas me fazem pensar, quais são os melhores métodos para testar o disco. Os testes SMART são mencionados abaixo. Provavelmente vou remover a unidade, reconstruir com uma nova.

Ainda não está claro para mim se um volume pode ser reconstruído e não mostrar erros, como parece já ter acontecido com essa unidade existente?

    
por datatoo 18.10.2011 / 01:16

4 respostas

10

As unidades podem ser marcadas como falhas em uma matriz por vários motivos. Talvez haja alguns setores defeituosos. Talvez as cabeças da unidade estejam falhando. Talvez os raios cósmicos atinjam sua unidade no ângulo certo e no tempo para falhar em uma varredura. Talvez o firmware deles tenha um bug que quebra.

Algumas dessas falhas são reparáveis, outras não.

O problema é que é realmente difícil prever falhas no disco rígido. O documento infame do Google descobriu que o SMART só era útil em que, se fosse alertado, as unidades tinham maior probabilidade de falhar do que se isso não acontecesse. Totalmente 36% das unidades com falha não tinham erros SMART, fatais ou não. Assim, você pode executar um conjunto completo de digitalizações SMART, não encontrar nenhuma e não saber mais do que você faz agora.

Mas, supondo que isso seja uma falha inesperada e não uma falha "eu-fiz-algo-engraçado-e-falhou", você já tem uma indicação de problemas com o disco. Agora é uma questão de valor.

  • Quanto custa uma outra unidade?
  • Quanto tempo seria perdido para seus usuários se este servidor morresse?
  • Quanto do seu tempo seria perdido se este servidor morresse?
  • Quanto vale todo esse tempo?
  • Duplique este valor para contabilizar (ingenuamente) o custo de oportunidade

Eu nunca estive em uma situação em que valesse a pena deixar uma unidade falhar. Por que passar pela dor? As chances são, a unidade que você precisa é muito barata. Compre e siga em frente.

    
por 18.10.2011 / 01:42
2

Uma vez eu tive um caddy defeituoso em um antigo array SCSI U160, que era um dos 14 discos no array. Quando eu substituí o caddy (o disco estava bem), ele ainda achava que estava falhando porque o disco tinha o mesmo número de série.

Por isso, marquei tudo como OK, a matriz foi reestabelecida e tudo correu bem até que nós a descartássemos.

Tudo depende da sua situação, mas normalmente eu nunca marcaria um disco como OK, a menos que eu tivesse 100% de certeza de que estava tudo bem. Mesmo com 99,9% de certeza, eu apagaria o array e começaria de novo.

    
por 18.10.2011 / 01:30
2

Se você se preocupa com os dados, substitua a unidade imediatamente por uma nova e reconstrua a matriz. Você pode então executar testes extensivos na unidade removida e requalificá-la para uso se ela for aprovada. No entanto, se você tentar reconstruir a unidade com falha no local, estará estendendo o tempo em que está vulnerável a uma falha de unidade dupla se algo der errado durante ou após o processo de reconstrução.

    
por 18.10.2011 / 01:45
0

Depende inteiramente do motivo pelo qual a unidade falhou. Em alguns casos, eu vi discos perfeitamente bem fracassados na inicialização com cartões de invasão baratos porque o controlador tinha um momento derp e não detectou a unidade. Isso é muito raro, eu fiz um monte de testes SMART na unidade e fiz um teste completo de badblocks, limpando a unidade inteira com DD. Essa unidade particular foi ok por todos os meus padrões e como eu estava correndo raid5 e não Linear ou raid0 eu adicionei-o à matriz novamente.

Execute um teste SMART usando um disco de recuperação do Linux ou semelhante, anote a contagem de badblocks, execute um teste completo do SMART e observe novamente a contagem de blocos defeituosos. Se tivesse um aumento de mais de 20 eu não confiaria. O mesmo se os badblocks forem particularmente altos para o tamanho / tamanho da unidade.

O risco não é apenas que as unidades falhem completamente, mas que seus dados possam corromper com o tempo.

Você também pode incluir a leitura de "smartctl -a / dev / hda" para esta unidade na pergunta original, obrigado.

    
por 18.10.2011 / 01:43