O disco rígido no zpool mostrou erro, mas depois pareceu ok. Como eu sei se algo está errado?

1

Meu computador de trabalho tem uma configuração de 4 discos rígidos em um zpool em um sistema Ubuntu. Sou treinado como programador, não como TI, mas sou parcialmente responsável pelo gerenciamento do meu computador. Após a reinicialização no outro dia, notei que o pool não estava montado, e esta foi a saída do comando zpool status:

pool: zhoupool
 state: DEGRADED
status: One or more devices could not be used because the label is missing or
    invalid.  Sufficient replicas exist for the pool to continue
    functioning in a degraded state.
action: Replace the device using 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-4J
  scan: scrub repaired 0 in 1h48m with 0 errors on Sun Mar 12 03:12:25 2017
config:

    NAME                                 STATE     READ WRITE CKSUM
    zhoupool                             DEGRADED     0     0     0
      mirror-0                           ONLINE       0     0     0
        ata-ST3000DM001-1ER166_Z500GM2P  ONLINE       0     0     0
        ata-ST3000DM001-1ER166_Z500GMZ3  ONLINE       0     0     0
      mirror-1                           DEGRADED     0     0     0
        11645674422250617741             UNAVAIL      0     0     0  was /dev/disk/by-id/ata-ST3000DM001-1ER166_Z500GP0C-part1
        ata-ST3000DM001-1ER166_Z500GVM5  ONLINE       0     0     0

errors: No known data errors

Eu pretendia substituir o disco rígido, no entanto notei mais tarde que o pool tinha sido montado (a máquina foi reiniciada pelo menos uma vez desde o erro inicial). A saída de status do zpool agora era:

 pool: zhoupool
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 31.0G in 2h10m with 0 errors on Sun May 14 02:34:46 2017

config:

    NAME                                 STATE     READ WRITE CKSUM
    zhoupool                             ONLINE       0     0     0
      mirror-0                           ONLINE       0     0     0
        ata-ST3000DM001-1ER166_Z500GM2P  ONLINE       0     0     0
        ata-ST3000DM001-1ER166_Z500GMZ3  ONLINE       0     0     0
      mirror-1                           ONLINE       0     0     0
        ata-ST3000DM001-1ER166_Z500GP0C  ONLINE       0     0  258K
        ata-ST3000DM001-1ER166_Z500GVM5  ONLINE       0     0     0

errors: No known data errors

Isso ainda indicava um erro, então eu ainda estava trabalhando para pedir um novo disco rígido para substituí-lo. No entanto, percebo agora que o status zpool não indica nenhum erro:

  pool: zhoupool
 state: ONLINE
status: Some supported features are not enabled on the pool. The pool can
    still be used, but some features are unavailable.
action: Enable all features using 'zpool upgrade'. Once this is done,
    the pool may no longer be accessible by software that does not support
    the features. See zpool-features(5) for details.
  scan: scrub repaired 0 in 2h11m with 0 errors on Sun Jul  9 02:35:48 2017
config:

    NAME                                 STATE     READ WRITE CKSUM
    zhoupool                             ONLINE       0     0     0
      mirror-0                           ONLINE       0     0     0
        ata-ST3000DM001-1ER166_Z500GM2P  ONLINE       0     0     0
        ata-ST3000DM001-1ER166_Z500GMZ3  ONLINE       0     0     0
      mirror-1                           ONLINE       0     0     0
        ata-ST3000DM001-1ER166_Z500GP0C  ONLINE       0     0     0
        ata-ST3000DM001-1ER166_Z500GVM5  ONLINE       0     0     0

errors: No known data errors

Então, eu ainda deveria estar preocupado? Houve realmente uma falha no disco rígido, ou foi algum problema de software que causou os erros? Como faço para diagnosticar isso?

    
por Colin 11.08.2017 / 19:54

1 resposta

1

Seus dados devem estar seguros. Parece que o scrub em 5/14 limpou as coisas e os scrubs a seguir funcionaram limpos. Verifique o dmesg para ver se o dispositivo está cuspindo tempos / erros.

Você deve usar o smartmontools para coletar dados SMART das unidades, verificar o status e executar verificações on-line ocasionais. (Aqui está um artigo decente: link ) As chances são de que isso não será a última vez que a unidade funciona.

    
por 11.08.2017 / 20:13