Por que as taxas de erro SMART estão diminuindo?

2

Eu tenho um disco rígido que faz parte de um array RAID5 de software Linux. A SMART informou que o seu multi_zone_error_rate era 0, depois 1, depois 3. Então, achei melhor começar a fazer backup com mais frequência e me preparar para substituir a unidade. Agora, hoje, o multi_zone_error_rate dessa mesma unidade volta para 1. Parece que dois erros não ocorreram enquanto eu não estava procurando.

Eu também vi um comportamento semelhante ao inspecionar o syslog no servidor.

Jun  7 21:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun  7 21:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun  7 21:01:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun  8 02:31:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun  8 03:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun  8 03:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200

Estes são valores brutos, não os valores úteis para o ser humano que smartctl -a produz, mas o comportamento é semelhante: as taxas de erro mudam e, em seguida, desfaz a alteração. Nenhuma dessas é a unidade que tinha a estranheza das zonas múltiplas. Eu não vi nenhum problema do RAID; seu mais recente scrub (< 24 horas atrás) voltou totalmente limpo. Estes são os únicos valores SMART que se comportam de maneira estranha.

A única coisa em que consigo pensar é que o circuito de relatórios SMART na unidade não está funcionando corretamente o tempo todo. Os cabos estão bem apertados na unidade e na placa. O que está acontecendo aqui?

    
por Jeff Shattock 08.06.2010 / 23:49

2 respostas

5

Como a medida é chamada como uma taxa, pode ser que ela diminua com o tempo, se nenhum outro erro ocorrer. Você precisará verificar a documentação da unidade para ter certeza.

Se a medida for "ocorrências ao longo do tempo", em vez de uma contagem absoluta desde uma hora específica, ela cairá se os erros deixarem de ocorrer. Talvez o aumento anterior tenha sido devido a mudanças localizadas nas condições ambientais, como um salto repentino na temperatura (clima incomum, falha no ar condicionado) ou um aumento na vibração (qualquer trabalho feito no mesmo rack pode ter causado problemas , ou talvez pequenos tremores de terra se você estiver em uma área afetada por eles, ou talvez alguém esteja ficando com raiva e gritando no servidor ) e essa alteração temporária nas condições desde que foi revertida e não retornou.

"erro" nos nomes de leitura SMART nem sempre implica um erro permanente e / ou irrecuperável. Um erro de busca talvez tenha ocorrido devido à falta de sinalização da unidade devido à vibração - nesse caso, a eletrônica da unidade apenas reajustará a posição (ou deixará que ela se estabilize) e aguardará que o disco gire de volta para o alvo setor está disponível novamente. Esse tipo de coisa é esperado com os timings muito precisos e os requisitos precisos de posicionamento trabalhados por drives modernos baseados em discos giratórios e um pequeno número desses erros não é um problema.

    
por 09.06.2010 / 03:50
2

Pode ser que seja alocado em torno dos setores defeituosos e "consertado" o problema. Uma certa quantidade disso é perfeitamente tolerável em uma unidade.

    
por 09.06.2010 / 02:07