Linux software RAID-5: falha na unidade não degrada a matriz

1

Eu tenho uma instalação do CentOS 6.0 instalada em uma VM do Hyper-V. Estou experimentando alguns dos recursos RAID de software do Linux e tenho um array RAID-5 composto de discos SCSI virtuais. A maioria funciona bem: se eu desligar a máquina virtual e excluir um dos discos, a matriz aparecerá degradada quando eu reiniciar, mas os dados ainda estarão intactos. Posso adicionar novamente uma unidade à matriz e reconstruí-la sem problemas.

O problema ocorre quando tento remover uma unidade enquanto a VM ainda está ligada. Ou seja, enquanto a VM está ativada, eu entro nas configurações dessa VM e removo um dos discos SCSI. Nesse caso, o Linux parece não perceber que a unidade desapareceu e a matriz não entrou no modo degradado. Em vez disso, recebo muitos avisos em / var / log / messages do STORVSC sobre códigos de status scsi. E, em vez de falhar normalmente ou entrar no modo degradado, a matriz começa a retornar dados corrompidos .

Eu literalmente não consigo pensar em um resultado pior aqui - no caso de uma falha de unidade em uma matriz RAID, ela decide apenas começar a retornar dados corrompidos? Certamente não?

Eu fiz algo terrivelmente errado aqui ou é assim que deve funcionar?

O sistema host é o Windows Server 2008 R2 Standard x64. CentOS6 executando o kernel 2.6.32-71.29.1.el6.x86_64. A matriz RAID foi criada usando o mdadm. Eu não mexi com nenhum dos componentes internos do sistema operacional - isso é basicamente uma nova instalação.

    
por Adrian 28.10.2011 / 11:05

1 resposta

1

Pode muito bem ser um problema com o HyperV. Eu não posso dizer nada definitivo, mas eu sei que em ambientes de servidor, você deve usar discos com TLER (recuperação de erro de tempo limitado), para que a unidade não fique presa no modo de repetição o tempo todo, mas em vez disso permite OS sabe muito em breve que está morto.

Minha experiência com RAID de software Linux com discos RAID comuns é que os arrays diminuem com a falha de disco, mas o sistema realmente não continua funcionando adequadamente.

Eu recomendaria tentar isso com hardware real, porque coisas como tempo de recuperação, problemas com o barramento etc. não são realmente imitadas. Também perceba BTW, que quando você vai testar a desconexão de discos, os resultados dependerão muito se você tiver suporte hotplugging, e se você conectou o 3.3V no plugue de energia SATA (conversores molex-to-sata não .. .)

    
por 28.10.2011 / 11:20