Eu configurei um pool do ZFS com duas unidades como um espelho. O sistema operacional é o Ubuntu 16.04 e eu tenho usado o zfs 0.6.5 como empacotado pelo fornecedor. As unidades são 3T WD Green e 3T WD Red (provavelmente não ideais para desempenho, mas isso não é uma consideração), que são do mesmo tamanho em bytes e setores. Eu não uso partições, mas zpool create
fez duas em cada drive para mim, como é habitual. Por padrão, o SO executa o scrub no pool uma vez por mês e executei o scrub manualmente algumas vezes.
Várias vezes, o processo de limpeza encontrou erros de soma de verificação na unidade WD Red, mas não em todas as execuções. Eles foram reparados automaticamente e não causaram problemas, tanto quanto eu sei. O número mostrado na coluna CKSUM indicou 3, 5 e 9, e agora, após uma atualização recente para o próximo Ubuntu 18.04 e ZFS 0.7.5, também 31 (com informações extras "muitos erros" se eu lembrar da mensagem corretamente ).
Alarmado, desanexei a unidade do pool e exportei o pool. Sem importar a unidade, eu corri badblocks -b 4096 -s -v -w
, mas ela reportou (0/0/0)
erros. Também smartctl -a /dev/sda
não indicou nada fora do comum, se eu entendi corretamente ( | grep -i error
):
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
Eu reconectei o disco ao pool e ele está atualmente praticando novamente. Mas permaneço mistificado: o que poderia ter causado os erros de lavagem recorrentes? O que devo fazer no futuro para descobrir melhor o problema ou evitá-lo completamente? Eu não estou particularmente interessado em comprar a (s) unidade (s) de substituição, especialmente porque o WD Red é fabricado somente em 2016.
(Não tenho certeza se isso é relevante, mas em algum momento o erro do operador ou o bug do software fez com que a tabela de partição do WD Green não fosse corrompida. Não consegui encontrar nenhuma outra ação para retorná-la ao excluindo a tabela de partição e recolocando-a. Durante o processo de recriação de prata, alguns blocos não puderam ser lidos a partir da unidade WD Red e eu restaurei o arquivo afetado dos backups. A depuração detectou erros de soma de verificação antes e depois desta incidente.)