Como fazer o smartd calar a boca sobre um setor offline incorrigível em particular?

17

Eu tenho um disco em um software RAID-1 de dois discos para o qual recentemente um "setor offline incorrigível" apareceu no status SMART.

198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1

Isso aparentemente é apenas um sinal de falha iminente de disco se ocorrer com cada vez mais freqüência (e como a unidade é espelhada, também não há grande risco de perda real de dados). Na época, um autoteste também falhou em algum momento e smartd me enviou um e-mail para me avisar disso, como é claro que deveria fazer.

No entanto, gravar no setor danificado geralmente faz com que o disco use um de seus setores sobressalentes, o que aparentemente aconteceu porque, como eu dd ed sobre o disco, todos os autotestes ficaram bem. E badblocks também não encontrou motivos para reclamar.

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
[...]
# 5  Extended offline    Completed without error       00%      5559         -
# 6  Short offline       Completed without error       00%      5540         -
# 7  Short offline       Completed: read failure       90%      5524         63273368

O número de setores defeituosos não diminuiu, o que não deveria, na verdade, já que o setor quebrado ainda está lá, ainda que não utilizado. No entanto, smartd continua enviando e-mails todas as noites:

The following warning/error was logged by the smartd daemon:

Device: /dev/sda [SAT], 1 Offline uncorrectable sectors

Isso é extremamente irritante, obviamente, e adormece meu reflexo de pânico saudável em smartd mails.

O disco é um WD20EARS da Western Digital e a versão smartd é 5.41 2011-06-09 r3365.

    
por Christian 10.01.2013 / 02:08

2 respostas

22

Talvez você precise de -U + / -U 198+ no arquivo de configuração (o + é significativo).

If ´+´ is specified, a report is only printed if the number of sec‐ tors has increased since the last check cycle. Some disks do not reset this attribute when a bad sector is reallocated. See also ´-v 198,increasing´ below.

smartd.conf (5)

    
por 20.01.2013 / 17:44
0

existem duas possibilidades de onde esses e-mails vêm. O smartd é capaz de enviar e-mails por si só, mas é provável que não esteja configurado dessa maneira, portanto, suponho que esses e-mails sejam enviados por verificação de log. Se essa suposição estiver errada, você não precisa ler mais nada.

logcheck verifica arquivos de log e envia e-mails se achar que você deve se preocupar com qualquer coisa que tenha acontecido com / no seu sistema.

Você tem a opção de gravar uma regra de ignorar logcheck que diz ao logcheck para não enviar mensagens que correspondam a um padrão específico.

Você pode (sob sistemas baseados em Debian) criar um arquivo chamado "/etc/logcheck/ignore.d.server/smartd_own" com o seguinte conteúdo:

^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$

Isso deve filtrar os e-mails irritantes, mas escrever de novo se o contador de setores incorrigíveis aumentar.

    
por 16.01.2013 / 16:45