Esta pergunta pergunta como recuperar uma unidade que um RAID caiu e pergunta como uma unidade pode periodicamente ser excluída de um RAID quando problemas de setor não existem. Para começar a entender o que pode estar acontecendo, pode ser útil perceber que é completamente plausível que as unidades entrem em uma função de recuperação ou calibração de erros a longo prazo e não respondam por um período de tempo suficiente que um controlador RAID falhará. a unidade, mesmo que não tenha erros de mídia.
Se a unidade não foi projetada para uso em um RAID, uma operação periódica de autoteste pode ser suficiente para causar falha na unidade. Este parágrafo faz referência ao assunto:
Este link de bug de 49 dias descreve uma ocorrência notória de falhas de RAID induzidas por TLER.
Unidades especificamente projetadas para RAID limitam o tempo que o inversor pode ficar offline para realizar operações de manutenção / recuperação.
Ao comprar uma unidade para uso em um RAID, e para evitar problemas dessa natureza, é útil procurar a recuperação de erros com tempo limitado ( TLER ) na especificação da unidade.
O problema do TLER não explica a dificuldade em reconstruir a matriz, no entanto, considere uma situação em que uma unidade sustenta uma falha do setor e o firmware da unidade remapeia o setor com falha para um sobressalente para que a unidade continue "perfeita" . Pode-se perguntar se o setor de 18297870 foi remapeado para um setor de reposição e os acessos ao setor de reposição demoram demais por algum motivo. Isso parece um pouco improvável, mas saber que os atrasos no tempo de acesso ao disco podem causar estragos com os RAIDs pode ser a chave para descobrir o que está acontecendo.
Verifique se há atualizações de firmware emitidas pelo fabricante para as unidades. As atualizações de firmware geralmente não estão disponíveis para unidades de classe de consumidor, mas as unidades de classe de servidor geralmente recebem atualizações de firmware que corrigem bugs de firmware que causam problemas operacionais, mesmo quando uma falha de hardware não ocorreu. Uma pesquisa na Web pelos termos "eliminação de RAID do erro do firmware da unidade" produz muitos resultados pertinentes. Alguns resultados identificam marcas e modelos específicos de unidades.
Este link documenta uma instância de um firmware deficiência que causou falha no RAID. Embora não seja idêntico ao problema documentado acima, o artigo mostra a relevância do firmware como agente causador de problemas de RAID. Consulte também a página da Wikipedia Seagate Barracuda que contém muitas referências para erros de firmware que causam problemas de desempenho.