Compreendendo os erros do smartctl e do disco rígido

0

Eu tenho um pool ZFS raidz2 e meus dois discos começaram a dar erro de E / S e depois disso os zfs marcaram como defeituosos. clique para log do dmesg

Eu removi os discos e fiz alguns testes neles. Smartctl diz:

DISCO 1 " clique para log completo = Status de integridade do SMART: CANAL DE DADOS IMPENDENDO TAXA DE ERRO DE DADOS DE FALHA MUITO ALTA [asc = 5d, ascq = 32]
DISCO 2 " clique para logar = Status de integridade SMART: FALHA IMINENTE DE HARDWARE FALHA GERAL DE DISCO RÍGIDO [asc = 5d, ascq = 10]

Eu criei um novo pool a partir do "DISK 1" e iniciei um teste, mas não vi nenhum erro de E / S no disco. Eu não encontrei nenhum erro como o anterior .. O disco funcionando normalmente. Também criei um pool com 4 discos e a Utilização do disco também era normal.
Eu tentei este teste por 4 dias e não encontrei um erro. O disco funcionando como os outros agora.

fio --randrepeat=0 --ioengine=libaio --name=test --filename=/disktest/fiofile  \  
--bs=1024k --iodepth=64 --size=5T --readwrite=readwrite --rwmixread=60 --numjobs=20

Eu tenho poucas perguntas; 1- Por que o disco não dá mais erro?
2- Se o disco estiver funcionando normalmente, por que causou erro de E / S no primeiro pool?
3- Qual é a melhor maneira de entender um disco rígido com defeito ou não?
4- Como podemos redefinir os contadores de erros do disco rígido?
5- O disco é lixo ou não?

O disco anexado de; Controlador - > LSI3008HBA - > 2x cabo SAS - > "SC946ED-R2KJBOD" 2xExpander - > Discos SAS Multipath.

    
por Morphinz 13.08.2018 / 14:29

1 resposta

1

  1. Algumas falhas podem ir e vir. Não há nada que garanta que você será avisado antes de um disco morrer, mas se o SMART começar a emitir erros de falha, é melhor não arriscar e apenas substituir a unidade.
  2. Erros podem ir e vir porque às vezes o disco continua tentando regiões problemáticas até conseguir (no ponto em que geralmente tentará evitar a utilização dessa região novamente, se puder).
  3. Você pode executar um autoteste SMART longo e / ou ler / gravar em cada LBA em uso (o ZFS tem um processo de depuração (também conhecido como resilvering) que pode ser iniciado). Cuidado, porém - isso pode fazer com que o disco falhe para sempre ...
  4. Você não pode.
  5. É difícil dizer, mas vamos dizer de outra forma: o dinheiro economizado por não substituí-lo desnecessariamente vale o risco de falhar de repente?
por 14.08.2018 / 08:46