Quão preocupado devo estar com erros de soma de verificação em um espelho do ZFS?

3

Eu tenho um sistema FreeNAS auto-criado, que usa 4 HDD em um pool ZFS puramente para armazenamento, e 2 memory sticks 16GB espelhados em um espelho ZFS para inicializar. É estável e está em funcionamento há cerca de 8 meses. No entanto, os e-mails durante a noite geralmente são:

Checking status of zfs pools:
 NAME           SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
 freenas-boot  14.5G  1.67G  12.8G         -      -    11%  1.00x  ONLINE  -
 volume1       7.25T   457G  6.80T         -     2%     6%  1.00x  ONLINE  /mnt

  pool: freenas-boot state: ONLINE status: One or more devices has experienced an unrecoverable error. An attempt was made to correct the error. Applications are unaffected. action: Determine if the device needs to be replaced, and clear the errors using 'zpool clear' or replace the device with 'zpool replace'. see: http://illumos.org/msg/ZFS-8000-9P scan: scrub repaired 232K in 0h6m with 0 errors on Sun Oct 23 03:51:22 2016 config:

   NAME STATE READ WRITE CKSUM    freenas-boot ONLINE 0 0 0      mirror-0 ONLINE 0 0 0        gptid/253f05a3-be26-11e5-8d9c-d05099c04470 ONLINE 0 0 1        gptid/879584e0-bfb0-11e5-ba20-d05099c04470 ONLINE 0 0 9

errors: No known data errors

Os erros de soma de verificação ocasionalmente aumentam, então quando eu executar uma atualização normal do FreeNAS, tudo será redefinido de volta para 0 novamente, após o que o processo irá se repetir, com os erros de checksum surgindo de vez em quando.

Não vi nada para indicar que os próprios HDDs estão tendo falhas, e eu faço o download da configuração do FreeNAS para um local de backup externo quando faço alterações, portanto, devo ser capaz de reinstalar em um novo flash drive, se necessário.

Tudo o que disse, como eu deveria estar preocupado com esses erros de checksum?

    
por James Thorpe 01.11.2016 / 10:30

1 resposta

2

Causas prováveis

Esses erros podem ter origens diferentes, alguns populares incluem:

  • Conexões escamosas ou cabos danificados
  • Perda brusca de energia ou remoção forçada de dispositivos
  • Erros de memória ao usar RAM não-ECC com defeito

Você pode limpar os erros com zpool clear , porque os erros foram poucos (em vez de too many errors ) e não afetaram os mesmos blocos em cada dispositivo. Eu suspeito que a atualização do FreeNAS também faz isso, o que resulta na situação que você descreveu.

Soluções possíveis

Eu faria o seguinte:

  • Execute memtest86 + overnight para descartar falhas na memória
  • Desconecte e reconecte todos os cabos, verifique se há conexões perdidas, se necessário, substitua os cabos (eles são baratos, então simplesmente substituí-los é mais rápido do que solucionar problemas)
  • Tente se funcionar com uma UPS faz diferença se você mora em uma área com suprimento de energia instável (os apagões são uma coisa em algumas partes dos EUA, já li)
  • Teste se a porta USB / controlador está com falha, usando uma placa diferente, ou uma placa adaptadora PCIe (muito barata)
  • Tente usar outro tipo de pendrives, tive boas experiências com sticks USB3 baseados em SLC (apenas erros de checksum estavam em remoção ou blackout)
por 02.11.2016 / 09:24

Tags