ZFS (Freenas) desativando uma unidade aparentemente saudável durante a limpeza

3

Eu tenho uma configuração RAIDZ de 4 discos em execução no Freenas 9.1. Anteriormente notei que uma das unidades havia sido colocada off-line. Fiz o smartctl e todos os discos passaram pela SMART. Alguns dias atrás, a máquina havia sido desligada enquanto um cliente do Windows estava escrevendo (ainda não tenho um no-break). Eu pensei que pode ter corrompido os dados, para colocar a unidade novamente on-line através da linha de comando. A unidade permaneceu on-line sem incidentes.

Então, decidi executar um scrub para verificar erros. O scrub pode chegar a ~ 50% do tamanho do pool antes que o computador deixe o drive offline sozinho. Nenhum erro CKSUM é relatado. O SmartCTL ainda mostra todas as unidades passando. O Zpool Status relata que a unidade foi colocada offline pelo administrador - obviamente, eu mesmo não levei a unidade offline, então presumo que talvez o FreeNAS esteja fazendo isso por algum motivo.

A unidade aparece bem, sem erros CheckSum. Por que as freenas levariam isso offline? Devo verificar qualquer outra estatística no disco para verificar se é uma falha verdadeira?

    
por James 08.02.2018 / 10:42

1 resposta

0

Pode ser possível que o disco tente ler um setor e não atinja resultados dentro da janela TLER (tempo de recuperação de erro limitado) (pode ser de alguns segundos a vários minutos). Em vez de tentar por mais tempo (e possivelmente travar toda a matriz), ele diz ao controlador para soltá-lo (ou o controlador assume que está morto e o solta, o que vier primeiro). Isso resulta no status OFFLINE .

Para resolvê-lo, você pode modificar o tempo limite no disco e no controlador e depois fazer outro scrub (que pode demorar mais e bloquear o sistema temporariamente) para detectar e corrigir quaisquer setores ilegíveis; ou você pode remover o disco e fazer o mesmo procedimento em outro sistema, recuperando-o depois; ou você pode apenas removê-lo e substituí-lo.

    
por 08.02.2018 / 11:55