O disco falhou no meio da reconstrução do 3ware RAID 5

3

Eu tenho um controlador RAID 3ware 9650SE com um array RAID 5 contendo 15 discos Seagate ST31000340NS. Depois de perceber os erros do ECC na unidade da Porta 10, substituí-lo por um sobressalente e iniciei uma reconstrução do RAID. A meio da reconstrução, o disco da porta 5 falhou completamente, o que tornou a matriz inoperável porque o novo disco na porta 10 estava incompleto. O array permaneceu em uso durante a reconstrução até a falha do disco da porta 5. Eu esperava recuperar os dados colocando de volta o disco original da Porta 10, mas o controlador RAID não o adicionou de volta à matriz. Em vez disso, foi listado como "disponível". A minha pergunta é: como posso forçar o controlador a reconhecer o disco original da porta 10 em sua localização original? Não há opção "adicionar disco" na interface do 3dm2.

* INFO EXTRA * Obrigado por todos os comentários e sugestões relacionados à minha postagem original. Eu deveria ter mencionado antes que a matriz foi montada somente leitura durante a reconstrução. Não sei se isso faz alguma diferença nas chances de forçar o controlador a aceitar o disco original de volta. Não há um backup pelo caminho. Aconteça o que acontecer, eu certamente aprendi minha lição. RAID5.

    
por Dan 01.03.2010 / 17:26

5 respostas

4

Eu acredito que você está sem sorte. Este é um dos perigos do RAID5. Como a matriz estava em uso, todos os outros discos agora estão fora de sincronia com o disco da porta 10 original.

atualizado: Sobre a atualização de montagem somente leitura ... Se isso funciona ou não, será realmente um detalhe de implementação do 3ware. Mesmo se você montasse somente leitura, o controlador RAID poderia ter atualizado alguns metadados nos discos e decidido que essa configuração não é recuperável. Isso é o que eu esperaria.

    
por 01.03.2010 / 17:29
2

Sua melhor opção é recriar a partir do backup. Como a matriz estava em uso, os dados estariam fora de sincronia no disco 10.

O RAID 5 não está mais sendo recomendado para uso, pois os tamanhos dos discos ficam maiores; as chances de um erro irrecuperável nas unidades estão aumentando, e normalmente não são encontradas até que você tenha um disco com falha na matriz RAID 5 (que é quando o segundo disco e seu ponto ruim latente são encontrados).

    
por 01.03.2010 / 17:33
1

Você pode ter sorte se o erro na segunda unidade estiver em uma parte do disco que não é utilizada pelo sistema de arquivos. Portanto, se você não tiver nenhum backup, poderá tentar reconstruir com o conjunto de sinalizadores "ignorar erros ECC na reconstrução". Em seguida, você deseja executar alguma verificação de consistência em seu sistema de arquivos e pode ter que esperar algum dano nos dados no pior dos casos. Ainda assim, pode ser preferível perder todo o volume.

    
por 28.07.2011 / 11:09
0

Com os tamanhos de disco atuais, a probabilidade de outra falha de unidade quando uma unidade já falhou é de 62% quando os discos do consumidor: link

Não use o raid 5, nunca. Se você precisar fornecer alta disponibilidade e armazenamento barato, use o raid6 e um hot spare.

    
por 01.03.2010 / 17:52
0

Se sua matriz permaneceu on-line e recebeu gravações depois que você removeu o disco com falha na porta 10, isso significa que o disco está inconsistente com o restante da matriz e, mesmo se você puder forçá-lo on-line, todos os volumes da matriz corrompido.

Não me pergunte como eu sei disso ...

A restauração de backups é provavelmente sua única opção viável.

    
por 01.03.2010 / 17:55