Como interpretar os dados de falha fornecidos pelo SMART e zfs

2

Em um pequeno sistema de servidores, eu tenho um sistema de arquivos zfs com um par espelhado de unidades consumidoras (Seagate Barracudas). Recentemente, durante uma operação de limpeza periódica, o seguinte resultado foi dado:

  pool: storage
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 10.9M in 44h14m with 0 errors on Tue Jun  6 00:11:23 2017
config:

        NAME          STATE     READ WRITE CKSUM
        storage       ONLINE       0     0     0
          mirror-0    ONLINE       0     0     0
            map2_sda  ONLINE       0     0     0
            map2_sdb  ONLINE       0     0    55

errors: No known data errors

Houve algumas falhas de energia e eventos semelhantes entre esta operação de scrub e a anterior, o que eu acho que pode ser uma causa plausível da falha, mas eu me preocupo com a possibilidade de que seja uma falha de hardware iminente, particularmente dada esse disco estava totalmente limpo e o outro tinha vários erros.

O smartctl me diz que o disco suspeito teve um total de 117 erros durante sua vida útil (de 935 dias), mas os indicadores de erro mais óbvios estão bem claros sobre seus valores de limite:

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   109   081   006    Pre-fail  Always       -       22737688
  5 Reallocated_Sector_Ct   0x0033   092   092   010    Pre-fail  Always       -       9784
  7 Seek_Error_Rate         0x000f   083   060   030    Pre-fail  Always       -       213798923
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       22599
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0

Algo aqui indica que eu preciso substituir preventivamente esse disco? Eu não preciso de 100% de tempo de atividade nesta máquina, mas prefiro não ter que me preocupar com os vários dias de resilvering que seriam necessários se eu precisasse substituir o disco em uma situação de emergência.

    
por Jules 11.06.2017 / 18:57

2 respostas

2

Eu realmente não iria entrar em pânico se fosse você, certamente não para substituir (o que realmente coloca você em uma situação mais difícil, com apenas uma unidade, quase três anos seguidos, para um 44+ hora resilver ...) Eu coloquei a maior unidade que eu poderia razoavelmente pagar em um slot livre e adicionar isso ao pool (não como um sobressalente, como um espelho de 3 vias) e quando (se) um dos outros dois falhar primeiro eu iria substituí-lo com outro grande e crescer a piscina ... uma das características mais agradáveis de zfs ... mas isso é só comigo.

Velho, mas veja a experiência do Google com a SMART, aumente as taxas de falha, o calor e a idade.

    
por 12.06.2017 / 05:58
1

Erros de soma de verificação são muito menos críticos que erros de leitura ou gravação. Enquanto erros de leitura / gravação indicam que um bloco não pode ser lido ou escrito (o que é mais provável porque está permanentemente danificado), erros de checksum significam que o que foi recebido não é o que deveria ter sido recebido (de acordo com o próprio ZFS) checksums).

Você pode investigar a causa dos erros:

  • Eles já aconteceram algum dia ou foi a primeira vez?
  • Alguma coisa aconteceu com a máquina (alguém a moveu, tocou, substituiu outro hardware)?
  • Houve reinicializações inesperadas e / ou perdas de energia ou outros eventos de fornecimento de energia (se seus dispositivos permitem monitorar isso)?
  • Como é a situação de calor e choque no caso dos dois discos?
  • Os dois discos são diferentes (cabos diferentes, posições diferentes no caso de cabos, controladores diferentes, etc.)?
  • Algo estranho aconteceu em algum registro disponível?

Se você não conseguir encontrar nada E obter quantidades adicionais (possivelmente aumentando ou alta) de erros de soma de verificação, convém substituir o disco. Você pode fazer isso adicionando um terceiro espelho primeiro, como quadruplebucky sugerido e resilver-lo nas horas de folga. Qualquer carga adicional na máquina reduzirá a velocidade de resilverização. Dependendo do disco, também pode ser possível que o disco "bom" resilte mais rápido do que ambos, mas somente se o "mau" for realmente ruim (o que eu não assumo).

    
por 12.06.2017 / 11:58