ZFS que restaura um dispositivo sem erros

2

Recentemente, substituí um HDD em um Backup-Server em um site do cliente por um maior. É uma caixa freenas rodando em um HP SE326M1 *.

Enquanto o ZFS estava substituindo a unidade, ocorreu uma grande queda de energia.

Não foi um grande problema - a caixa começou de novo e o resilver também.

Hoje encontrei algo interessante: outra unidade também obteve o status de resilvering. Mas não há erros de leitura / gravação / cksum em zpool status -v

  pool: Tank
 state: ONLINE
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Sat Mar  4 15:37:53 2017
        3.41T scanned out of 4.51T at 24.7M/s, 13h3m to go
        302G resilvered, 75.43% done
config:

    NAME                                            STATE     READ WRITE CKSUM
    Tank                                            ONLINE       0     0     0
      raidz2-0                                      ONLINE       0     0     0
        gptid/ad81fb87-96b5-11e6-af9c-d8d385e6539a  ONLINE       0     0     0
        gptid/b30f664d-96b5-11e6-af9c-d8d385e6539a  ONLINE       0     0     0
        gptid/09b6b651-ff29-11e6-9a6a-d8d385e6539a  ONLINE       0     0     0  (resilvering) <-- drive was replaced
        gptid/beb62f74-96b5-11e6-af9c-d8d385e6539a  ONLINE       0     0     0
        gptid/c2c97ff3-96b5-11e6-af9c-d8d385e6539a  ONLINE       0     0     0
      raidz2-1                                      ONLINE       0     0     0
        gptid/41b1a629-9785-11e6-894c-d8d385e6539a  ONLINE       0     0     0
        gptid/4756cd8e-9785-11e6-894c-d8d385e6539a  ONLINE       0     0     0
        gptid/508e74c7-9785-11e6-894c-d8d385e6539a  ONLINE       0     0     0
        gptid/575939b3-9785-11e6-894c-d8d385e6539a  ONLINE       0     0     0  (resilvering) <-- drive in question
        gptid/5d914967-9785-11e6-894c-d8d385e6539a  ONLINE       0     0     0

errors: No known data errors

O status "(resilvering)" apareceu nas últimas horas - enquanto o resilver da primeira unidade estava em andamento.

Existe alguma maneira de determinar por que a segunda unidade também é resilvered? Por que o ZFS está exibindo o status de resilver em gptid/575939b3-9785-11e6-894c-d8d385e6539a , independentemente dos erros mostrados em zpool status ?

-

* O HP-Server possui um controlador RAID P410 no modo write-throug. Cada drive é configurado como seu próprio Raid-0

    
por Martin Seitl 06.03.2017 / 08:01

1 resposta

2

Aconteceu de novo e desta vez eu tenho os logs. Acontece que user121391 estava totalmente certo e a unidade em questão tinha um erro "não-utilizável".

Mar 12 08:22:14 freenas ciss0: *** Fatal drive error, Port=1I Box=1 Bay=14
Mar 12 08:22:14 freenas ciss0: (da9:ciss0:0:9:0): READ(10). CDB: 28 00 1b 50 ff 98 00 00 08 00 
Mar 12 08:22:14 freenas FATAL I/O ERROR on logical drive 9 (), SCSI port 0 ID 21
Mar 12 08:22:14 freenas (da9:ciss0:0:9:0): CAM status: SCSI Status Error
Mar 12 08:22:14 freenas (da9:ciss0:0:9:0): SCSI status: Check Condition
Mar 12 08:22:14 freenas (da9:ciss0:0:9:0): SCSI sense: MEDIUM ERROR asc:11,0 (Unrecovered read error)
Mar 12 08:22:14 freenas (da9:ciss0:0:9:0): Error 5, Unretryable error

Parece que o controlador RAID recolocou o drive após esse erro e isso acionou o resilver.

    
por 12.03.2017 / 15:08

Tags