Verifique seus sistemas de arquivos após reparar seu array, caso haja corrupção silenciosa de dados.
Você pode perder duas unidades inteiras em um RAID 10 de quatro unidades. Dependendo de quais dessas unidades estão falhando, talvez você não seja ferrado nem um pouco. Certifique-se de que ambas as unidades sejam membros de matrizes RAID 1 opostas. Se eles são, você está quase certamente bem. Você também tem um hot spare, e isso deve funcionar como um espaço "spillover" para a maioria dos controllers - embora eu não esteja certo se o seu controller fará isso porque eu não sei o que é.
Mesmo que o seu controlador não use um hot spare como espaço de rascunho ou espaço de emergência, ele ainda deve ter feito regularmente leituras de patrulha, o que pode ter detectado esses problemas e realocado as áreas de dados. Seu registro de controlador seria um bom lugar para ver se isso aconteceu durante pelo menos as últimas leituras de patrulha. Não tenho idéia de quantos anos esses erros de mídia são, no entanto.
Em relação ao seu adaptador, se você não estiver executando unidades "certificadas" do fabricante em seu controlador, seu controlador não será necessariamente tão inteligente em ejetar os membros quando eles começarem a falhar - normalmente apenas sendo capaz de ejetá-los quando eles soltarem ou relatar uma falha grave do SMART. No entanto, um disco pode estar ficando ruim por algum tempo antes de acionar o relatório geral de integridade do SMART.
Mesmo que não esteja bem, execute a reconstrução e faça uma verificação de consistência + verificação do sistema de arquivos. Você também verá erros de E / S do sistema de arquivos no dmesg se realmente estiver executando em corrupção no nível do sistema de arquivos. No pior dos casos, você precisará restaurar alguns arquivos ou toda a matriz do backup. Faça a reconstrução de um disco de cada vez, não de ambos. Comece com a substituição do disco mais irregular.