inicializando um sistema com dispositivos com falha em uma matriz RAID1

2

Eu tenho um sistema Linux configurado com 3 dispositivos de software RAID1, cada um dos quais composto por duas partições idênticas em dois discos idênticos. Recentemente, uma das partições não raiz em um disco começou a apresentar erros de DMA; Por isso, marquei como falha. Quando reiniciei a máquina, ela lançou o kernel com sucesso, mas começou a imprimir erros de DMA (presumivelmente associados à partição com falha) quase imediatamente. Não deveria marcar a partição problemática como falha permitir que a máquina inicialize sem erros? Se não, como posso obter o sistema para inicializar? Eu tentei modificar o arquivo mdadm.conf na imagem de inicialização da máquina para não listar a partição problemática na lista de dispositivos do dispositivo RAID que a continha, mas isso não pareceu ter nenhum efeito. Também devo observar que posso acessar o dispositivo RAID degradado se eu inicializar a partir de um CD de recuperação e montar manualmente o dispositivo a partir da partição boa restante.

    
por lebedov 04.10.2011 / 21:46

1 resposta

4

Parece que você está usando o Linux Software RAID , e os dispositivos RAID estão configurados usando partições em vez de discos inteiros.

Neste caso, simplesmente falhar na partição não ajudará: A falha drive (componente de hardware) é o que está gerando os erros. Sempre que o sistema operacional tentar acessar o componente de hardware, você terá problemas e, como as unidades normalmente não funcionam mal em um único ponto, os problemas se espalharão por todas as partições até que a unidade finalmente desista e morra.

Minha sugestão para você é fazer o backup de seus dados AGORA , usando o CD de recuperação (que aparentemente funciona conforme sua pergunta) e substitua o componente de hardware com falha. reconstruindo sua (s) matriz (s) RAID conforme apropriado.

Longo prazo, você desejará estruturar seu software RAID da mesma forma que faria com um RAID de hardware (usando unidades inteiras, não partições) - Se necessário, crie o RAID nas unidades físicas que você possui em seguida, particione o dispositivo virtual (RAID). Isso permite que você falhe em um drive de morrer (componente de hardware) ou, se necessário, remova-o e permita que o sistema seja inicializado sem um conjunto conhecido e bem definido de efeitos colaterais, em vez de ficar surpreso O nível cada vez maior de falhas de uma unidade faz com que mais e mais RAIDs de partição fiquem malucos ...

Se você está confiando em RAID de software em produção, você também deve estar executando smartd da suíte smartmontools e configurado para alertá-lo quando as unidades começarem a parecer escamosas ...

    
por 04.10.2011 / 22:09