Atualização do gerenciador de armazenamento MegaRAID e agora vários erros de mídia

2

Eu estava apenas cutucando um servidor de 5 anos e notei que o gerenciador de armazenamento MegaRAID (14.08.01) parecia não estar respondendo. O servidor foi executado por algo como 400 dias sem reiniciar.

Eu não queria reinicializá-lo, então eu instalei a nova versão (17.05.00) e ela pareceu ir bem. Imediatamente após o lançamento do MSM, ele começou a localizar o "Erro de leitura não detectado sentido inesperado" no disco 0.

Eu pedi uma unidade RMA expressa da WD e, em seguida, iniciei uma verificação de consistência. Agora estou vendo o mesmo erro (mas com muito menos frequência) em outra unidade também. Eu tenho quatro unidades no RAID 10 mais um hot spare. Uma das unidades tem 156 erros de mídia e a outra tem 10. Estou ferrado?

Devo falhar a unidade com mais erros de mídia e tentar reconstruí-la?

    
por Kevin Morse 25.03.2018 / 00:21

1 resposta

2

Verifique seus sistemas de arquivos após reparar seu array, caso haja corrupção silenciosa de dados.

Você pode perder duas unidades inteiras em um RAID 10 de quatro unidades. Dependendo de quais dessas unidades estão falhando, talvez você não seja ferrado nem um pouco. Certifique-se de que ambas as unidades sejam membros de matrizes RAID 1 opostas. Se eles são, você está quase certamente bem. Você também tem um hot spare, e isso deve funcionar como um espaço "spillover" para a maioria dos controllers - embora eu não esteja certo se o seu controller fará isso porque eu não sei o que é.

Mesmo que o seu controlador não use um hot spare como espaço de rascunho ou espaço de emergência, ele ainda deve ter feito regularmente leituras de patrulha, o que pode ter detectado esses problemas e realocado as áreas de dados. Seu registro de controlador seria um bom lugar para ver se isso aconteceu durante pelo menos as últimas leituras de patrulha. Não tenho idéia de quantos anos esses erros de mídia são, no entanto.

Em relação ao seu adaptador, se você não estiver executando unidades "certificadas" do fabricante em seu controlador, seu controlador não será necessariamente tão inteligente em ejetar os membros quando eles começarem a falhar - normalmente apenas sendo capaz de ejetá-los quando eles soltarem ou relatar uma falha grave do SMART. No entanto, um disco pode estar ficando ruim por algum tempo antes de acionar o relatório geral de integridade do SMART.

Mesmo que não esteja bem, execute a reconstrução e faça uma verificação de consistência + verificação do sistema de arquivos. Você também verá erros de E / S do sistema de arquivos no dmesg se realmente estiver executando em corrupção no nível do sistema de arquivos. No pior dos casos, você precisará restaurar alguns arquivos ou toda a matriz do backup. Faça a reconstrução de um disco de cada vez, não de ambos. Comece com a substituição do disco mais irregular.

    
por 25.03.2018 / 01:17