Quantas realocações do setor SMART indicam problemas?

16

Eu tenho um dispositivo NAS com pouco mais de um mês. Ele está configurado para me enviar alertas gerados a partir dos dados SMART dos discos rígidos. Depois de um dia, um dos discos rígidos informou que um setor tinha ido mal e foi realocado. Durante a primeira semana, esse número subiu para seis setores totais para o disco rígido em questão. Depois de um mês, o número é de nove setores realocados. A taxa definitivamente parece estar desacelerando.

O NAS é configurado com seis unidades de 1,5 TB em uma configuração RAID-5. Com esses drives de alta capacidade, eu esperaria que um setor falhasse de tempos em tempos, então eu não estava preocupado quando os primeiros setores foram realocados. No entanto, me incomoda que nenhum dos outros discos esteja relatando problemas.

Em que taxa de realocações, ou número total de realocações, devo começar a ficar preocupado com a saúde da unidade? Isso pode variar com base na capacidade da unidade?

    
por Jeremy 04.05.2009 / 14:39

7 respostas

13

Unidades, como a maioria dos componentes, têm uma taxa de falha na curva da banheira. Eles falham muito no começo, têm uma taxa de falhas relativamente baixa no meio e depois falham muito quando chegam ao fim da vida.

Assim como a unidade inteira segue essa curva, áreas específicas do disco também seguirão essa curva. Você verá muitas realocações do setor no início do uso da unidade, mas isso deve diminuir. Quando a unidade começa a falhar no final da vida, ela começa a perder mais e mais setores.

Você não precisa se preocupar com 6 (dependendo da unidade - consulte o fabricante), mas é necessário observar e observar a frequência de cada nova realocação. Se a deterioração acelera ou permanece a mesma, preocupe-se. Caso contrário, deve ficar bem após o período inicial de amaciamento.

-Adam

    
por 04.05.2009 / 18:22
18

Relendo o artigo do Google sobre o assunto, " Tendências de falha em uma grande população de unidades de disco ", acho que posso dizer com segurança que a resposta de Adam está incorreta. Em sua análise de uma população extremamente massiva de unidades, aproximadamente 9% tinham contagens de realocação diferentes de zero. A citação reveladora é esta:

After their first reallocation, drives are over 14 times more likely to fail within 60 days than drives without reallocation counts, making the critical threshold for this parameter also one.

É ainda mais interessante quando se lida com "realocações off-line", que são realocações descobertas durante a limpeza do plano de fundo da unidade, não durante as operações reais de IO solicitadas. Sua conclusão:

After the first offline reallocation, drives have over 21 times higher chances of failure within 60 days than drives without offline reallocations; an effect that is again more drastic than total reallocations.

A partir de agora, minha política será que as unidades com contagens de realocação diferentes de zero serão programadas para substituição.

    
por 17.11.2009 / 03:26
3

Unidades diferentes provavelmente têm parâmetros diferentes. Em uma unidade que verifiquei pela última vez que era um disco de série empresarial de 1 TB de um fornecedor, havia 2048 setores reservados para realocação.

Você pode estimar o número de setores reservados procurando no S.M.A.R.T. relatório sobre uma unidade que possui um número diferente de zero de setores realocados. Considere um relatório sobre uma unidade com falha abaixo.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Aqui, 95% de sua capacidade reservada foi utilizada, o que corresponde a 1955 setores. Portanto, a capacidade inicial era de cerca de 2057. Na verdade, é 2048, a diferença é devido a o erro de arredondamento.

O S.M.A.R.T. transforma a unidade em um estado de falha quando o número de setores realocados atinge um determinado limite. Para o inversor em questão, esse limite é definido em 64% da capacidade reservada. Isso é aproximadamente 1310 setores remapeados.

No entanto, os setores reservados não estão mentindo em um período contínuo. Em vez disso, eles são divididos em vários grupos, cada grupo está sendo usado para remapear setores de uma parte específica do disco. Isso é feito para manter os dados locais em uma área no disco.

A desvantagem da localidade é que o disco pode ter muitos setores reservados. No entanto, uma área já pode ficar sem capacidade reservada. Neste caso, o comportamento depende do firmware. Em uma unidade, observamos que ela entra em estado de falha e bloqueia quando ocorre um erro em uma peça que não está mais protegida.

    
por 12.05.2012 / 06:42
2

Você pode querer executar um S.M.A.R.T. auto-teste longo, se a unidade suportar. Isso pode fornecer mais informações sobre o status da unidade. Se o seu NAS não puder fazer isso, e se você puder retirar a unidade ou desligar o NAS por algumas horas, poderá fazer o autoteste longo com o disco rígido conectado a outra máquina.

    
por 04.05.2009 / 18:09
1

Quando um drive este novo se comporta assim não é confiável!

Envie de volta o mais rápido possível e obtenha uma unidade de substituição.

    
por 04.05.2009 / 14:52
1

Diferentes fabricantes têm diferentes números de "perda aceitável" (mesma ideia que com monitores e pixels ruins). Verifique com o fabricante da unidade para descobrir qual é o seu padrão.

Parece uma tendência ruim ...

    
por 04.05.2009 / 16:49
-1
Western Digital especialmente orgulhosa por tecnologia que recupera setor ruim em tempo aceitável ao invés de congelar disco colocado em RAID, seu nome TLER ( link ). O tempo normalmente é de 5,7 segundos.

Como eu encontrei na web, existem unidades de disco WD com opção desabilitada, mas algumas pessoas habilitaram esse recurso em unidades Green WD baratas e as colocaram em RAID.

O utilitário WDTLER foi removido do site de suporte da WD, mas pode ser facilmente descoberto pelo Google.

P.S. Eu uso este utilitário apenas para ler o status e não uso o RAID agora:)

    
por 17.11.2009 / 00:05