Um controlador RAID determina qual disco está com defeito, vendo qual está causando erros de E / S ou não está respondendo.
Um disco rígido moderno (isto é, um fabricado nos últimos 20 anos ou mais) usa ECC setorial para detectar e corrigir erros de bit-flip. Os sistemas ECC atualmente em uso podem corrigir qualquer erro de bit único em um setor e identificar todos os erros de bit duplo. Se repetidas leituras de um setor produzirem consistentemente erros de bit único, o firmware da unidade mapeará o setor silenciosamente para uma parte não usada da unidade (todos os discos rígidos modernos têm um pouco de espaço livre para essa finalidade); Se forem produzidos erros de bit duplo, o firmware relatará um erro de E / S para o controlador e um controlador RAID marcará a unidade como falha. Para que os dados sejam corrompidos indetectavelmente, pelo menos três bits em um único setor precisam ser invertidos - um evento que é extremamente raro.
Se você suspeitar que um firmware ruim está causando saltos de bits, você pode detectar isso no nível de RAID (para RAID 1, 10, 5 e 6) executando uma verificação de consistência, mas isso apenas informará que há listras onde a paridade / espelhamento não corresponde; não vai te dizer qual disco é ruim. Você pode encontrar a unidade defeituosa puxando uma unidade da matriz e executando uma "varredura de superfície" para blocos defeituosos com sua ferramenta de verificação de disco favorita: se o firmware estiver ruim, a varredura deve encontrar centenas de milhares de setores defeituosos. p>