Tendo enormes problemas com 4 novos 3TB WD Red drives eu acabei de chegar.
Tentando configurar o raidz2 usando "zfs nativos" com todos os 4 no Ubuntu 14.04.1, que funciona inicialmente até que eu comece a tentar copiar os dados para o volume montado.
Eu corri badblocks em todas as 4 unidades e tudo voltou OK.
Eu executei testes estendidos SMART em todas as 4 unidades e tudo OK.
Pensei que talvez o timer idle3 estivesse causando problemas, já que eu notei que os drives vão dormir com bastante frequência, mesmo enquanto eu estava tentando copiar dados para eles (wtf?) então peguei a ferramenta wd5741, que se eu Lembre-se corretamente não funcionou, mas idle3-ferramentas com sucesso parou as unidades em standby - ever.
até hoje, o syslog ainda relata erros como:
ata7.00: exception Emask 0x10 SAct 0x0 SErr 0x1910000 action 0xe frozen
ata7: SError: { PHYRdyChg Dispar LinkSeq TrStaTrns }
ata7.00: failed command: READ DMA
end_request: I/O error, dev sdc, sector 377981880
ata5.00: device reported invalid CHS sector 0
ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
ata6.00: failed command: WRITE DMA EXT
para todos os 4 volumes, ata5-8 e / dev / sdc-f ao redor quando os processos que acessam essas unidades começam a travar.
Quando essas unidades forem bloqueadas, todos os processos que as tocarem, mesmo que apenas a lista de conteúdo do diretório (que não foi listada recentemente) congelará.
Apenas 2 drives relataram o erro "WRITE DMA EXT", mas eu suspeito que foi quando eu tive que reiniciar a máquina forçadamente porque os dispositivos estavam "ocupados" (fazendo algo que não consegui detectar nem parar ..)
Outros tópicos que eu verifiquei, a maioria das pessoas está substituindo as unidades para resolver o problema, mas estão encontrando erros por meio de verificações SMART - não estou.
Eu tive que destruir e recriar o pool do ZFS cerca de 5 vezes tentando resolver o problema. Servidor ubuntu reinstalado uma vez com o mínimo de software.
Correndo muito baixo em idéias depois de 2 dias de esforço ..
UPDATE: executou uma cópia durante a noite em um pool do ZFS com as duas unidades que ainda não tiveram problemas de gravação. Ele congelou. Não consigo ver quando ou quanto copiou porque quando eu tento executar ls
ou sudo mount
ou praticamente qualquer coisa eu recebo erros de arquivo não encontrado.
Então, a menos que o kernel decidisse que era uma boa idéia desmontar a unidade do sistema, eu diria que meu controlador SATA ou borked, o que significa que a placa-mãe provavelmente está saindo.
Dito isto, eu descobri esta manhã que é pelo menos 5 anos de idade, dos quais 2 foram gastos executando 24/7 para que ele pudesse ser hora de substituí-lo :(
Manterá esta publicação atualizada com qualquer outra notícia.