É normal que uma unidade SAS tenha alguns blocos defeituosos ou devo substituir minha unidade o mais rápido possível?

5

Eu tenho uma unidade - parte de um espelho RAID 1 - que tem dois blocos ruins. O Adaptec Storage Manager me mandou um e-mail quando detectou os blocos. Ele mostra 4 erros médios para aquela unidade, mas o estado ainda é “ótimo”.

Esta é a primeira vez que uso controladores Adaptec RAID. Não sei se um bloqueio incorreto ocasional é normal ou se devo substituir imediatamente esse disco.

Atualização: a unidade falhou mais tarde no mesmo dia!

O subsistema de disco é:

  • Adaptec 6405 com ZMM
  • (2) Unidades SAS near-line da Seagate (ST31000424SS)

A outra unidade ainda não informou nenhum bloco ruim. Estou executando uma verificação de consistência.

    
por Nate 29.06.2011 / 18:27

4 respostas

2

Normalmente, não respondo a minha pergunta, mas neste caso tenho uma resposta definitiva: substitua a unidade o mais rápido possível. A unidade em questão falhou mais tarde no mesmo dia.

No início da manhã, recebi três e-mails que se pareciam com os seguintes. Foi assim que soube que o disco tinha blocos ruins e foi o único aviso:

======================================================================================

ADAPTEC's EMAIL NOTIFICATION MANAGER (Instant)

======================================================================================

Event Type   : Warning
Event Source    : [email protected]
Date     : 06/29/2011
Time     : 05:29:03 AM PDT

--------------------------------------------------------------------------------------
Event(s) List With Description
--------------------------------------------------------------------------------------
Bad Block discovered: controller 1 (21a6e00).
--------------------------------------------------------------------------------------

**[Note]:   This message was generated by the Adaptec Storage Manager Agent.
Please do not reply to this message.

No final do dia, ele falhou.

    
por 30.06.2011 / 01:21
7

Quando as unidades são usadas em uma matriz, o controlador definirá a Recuperação de Erro com Tempo Limitado. Isso fará com que os discos relatem erros médios se não puderem ler os dados imediatamente. Isso não significa que eles não irão se recuperar do erro de leitura ou que o setor é completamente ilegível.
(Unidades SATA baratas não suportam o TLER e farão com que a operação de leitura fique suspensa enquanto a unidade tenta recuperar os dados; essa é apenas uma das várias razões pelas quais as unidades SATA mais baratas não devem ser transportadas em matrizes; claro que não se aplica a esta questão em particular)

Se o disco determinar que o setor é ilegível, ele remapeará o setor. O setor ruim original não será informado da cadeia, portanto, o software em execução no sistema operacional não tem como saber. A única coisa que você pode fazer é procurar o relatório SMART e ver se / quantos setores foram remapeados. Muitos setores sendo remapeados são uma boa indicação de coisas ruins por vir. A SMART também pode relatar quantas vezes o disco experimentou um erro temporário em comparação a um erro grave.

Em qualquer caso, a previsão de pré-falha SMART foi menos que útil; um O Google SMART Study faz o backup.

    
por 29.06.2011 / 19:43
4

Grandes unidades têm muito espaço extra para mover setores defeituosos, eu vi centenas de setores substituídos ao longo de duas semanas e depois a unidade continuou por mais um mês (RAID6, então não nos apressamos).

Se ele continuar alertando você a cada dia com mais alguns setores substituídos, eu o substituirei antes de falhar. Uma explosão de setores defeituosos quando você usa a unidade pela primeira vez não é nada assustadora, mas uma condição contínua geralmente significa partículas no gabinete ou uma cabeça de leitura / gravação danificada.

    
por 29.06.2011 / 19:18
2

Eu não usei unidades SAS, mas tenho unidades SCSI e unidades IDE regulares que recebem alguns blocos defeituosos e funcionam por anos sem nenhum outro problema. O S.M.A.R.T. o status deve informar quando uma unidade está em declínio e arrisca a falha.

Além disso, desde que você esteja usando o RAID, além do RAID 0, você estará protegido em caso de falha.

    
por 29.06.2011 / 18:36