Falha de recuperação do RAID5 MSA20 devido a URE em outro disco

1

Eu tenho o MSA20 com uma matriz de disco em 12 discos e 3 LUNs nele (cada ataque 5). Há alguns dias, um disco em um dos LUNs falhou e eu o substituí. Mas a recuperação do raid5 falhou em 13% e vejo no relatório do ADU que um dos discos tem "Erros registrados = 5566" e de acordo com as especificações SCSI é URE (Sense Code = 0x11, Qualifier = 0x00). No log serial também vejo erro URE. Parece que o Raid5 não pode ser reconstruído por causa disso. Então eu tenho algumas perguntas:

  1. Existe uma maneira de recuperar o raid5 ainda?

  2. Se eu deixar o novo disco que foi substituído e remover o disco com o URE, outros LUNs serão destruídos ou haverá falha no LUN? Se todos os LUNs falharem, o que faz o sentido de tornar cada LUN com o próprio ataque em um array de grupo de discos se 2 discos com falha puderem destruir tudo?

  3. Pelo que entendi, a maneira preferida é criar uma matriz de disco para uma LUN no futuro e não uma matriz com poucas LUNs?

Obrigado.

    
por Andrey 09.06.2012 / 07:49

2 respostas

2

1) É muito improvável que você consiga recuperar esse array específico. RAID não é backup. Esta é uma das muitas razões pelas quais você precisa de backups.

2) Depende de como os LUNs estão configurados. Se você tiver uma matriz RAID 5 com todos os 12 discos separados em 3 unidades lógicas, então, como a matriz desapareceu, todas as suas unidades lógicas desapareceram. Se você tiver três matrizes RAID 5 separadas, cada uma com quatro discos, somente a matriz que contém esses dois discos será removida e as outras matrizes (e, portanto, suas unidades lógicas) estarão bem.

3) Depende em grande parte do que você quer fazer. Pode haver boas razões para ter matrizes separadas em discos separados. Por exemplo, você pode querer evitar que uma matriz altamente carregada reduza a velocidade de outras matrizes. Se as matrizes estiverem nos mesmos discos físicos, você não poderá fazer isso. Ou você pode permitir que uma matriz altamente carregada consiga obter toda a largura de banda de todos os discos. Se você tiver arrays separados em discos separados, não poderá fazer isso.

E também há motivos para você querer colocar várias unidades lógicas no mesmo array. Você pode querer isolar sistemas de arquivos para que o preenchimento de um não encha o outro.

Se você colocar todas as unidades lógicas em uma matriz, perderá menos espaço. Uma única matriz RAID 5 em 12 discos de 1TB oferece 11 TB utilizáveis, divididos em três partes iguais, com 3,6 TB cada. Se você criar três matrizes separadas, cada uma com 4 discos de 1 TB, isso significa 3 TB cada. Então você trocaria o tamanho para obter a confiabilidade extra.

Os detalhes de qual flexibilidade você tem e o que afeta depende dos detalhes do seu controlador.

E alguns conselhos para o futuro:

  1. Considere o RAID 6. Ele pode tolerar a falha de duas unidades.

  2. Certifique-se de que 100% de suas matrizes sejam testadas regularmente e que as unidades com falha sejam substituídas imediatamente. Isso reduzirá drasticamente a chance de uma falha na unidade durante um estado degradado.

  3. O RAID não é backup. Mantenha backups regulares em um dispositivo fisicamente separado.

Se você tiver dados que não foram armazenados em backup, tente recuperar o máximo possível imediatamente. No entanto, se você não conseguir montar a matriz, a recuperação profissional é sua única esperança.

    
por 09.06.2012 / 08:39
2

1) Existe uma maneira de recuperar?

  • Desligue a matriz.
  • Reassente cada disco, um por um.
  • Ligue a matriz novamente. Veja se algum dos discos com falha está online.

Siga o Guia de manutenção e administração do seu controlador ao lidar com volumes com falha.

Enquanto a matriz estiver desligada, verifique os dados S.M.A.R.T nas unidades com falha. As unidades podem ser marcadas com falha, mas ainda assim legíveis, por exemplo, se estiverem com pouco espaço reservado para a realocação de dados.

No MSA1500cs, um procedimento de recuperação é explicado no capítulo 9 de Guia de manutenção e serviço :

If fault tolerance is compromised, inserting replacement hard drives does not improve the condition of the logical unit. The procedure to re-enable or accept a LUN that is unresponsive is performed in the Array Configuration Utility (ACU) or the MSA Command Line Interface (MSA-CLI).

  1. Pare toda a atividade de E / S.

  2. Desativar o sistema

  3. Remova e, em seguida, insira novamente todos os discos rígidos e controladores.

  4. Ligue o sistema

    5.1. Verifique se as seguintes mensagens são exibidas no visor LCD:

     02 ENABLE VOLUME <n>?  '<'=NO, '>'=YES
     04 ENABLE VOLUMES ? '<'=NO, '>'=YES
    

    5.2. Se estiver usando a ACU: Selecione Reativar a unidade lógica com falha

    5.3. Se estiver usando o MSA-CLI: Digite accept units para ativar todos os LUNs com falha.

Acho que o MSA-CLI é a maneira mais conveniente de gerenciar o array.

2) Se eu deixar o novo disco que foi substituído e remover o disco com o URE, outros LUNs serão destruídos ou haverá falha no LUN?

Isso depende da organização lógica dos seus arrays.

Aqui está um exemplo de uma prateleira de disco dividida em duas matrizes de disco. Uma matriz de disco tem 4 volumes lógicos e outra tem 2 volumes lógicos.

# hpacucli controller csn=sga0xxxx0f array all show
MSA1500 CS in MSA1500
array A
  logicaldrive 1 (2.0 TB, RAID 6 (ADG), OK)
  logicaldrive 10 (2.0 TB, RAID 5, OK)
  logicaldrive 11 (2.0 TB, RAID 5, OK)
  logicaldrive 12 (1.3 TB, RAID 5, OK)
array B
  logicaldrive 2 (2.0 TB, RAID 6 (ADG), OK)
  logicaldrive 4 (2.0 TB, RAID 6 (ADG), OK)

Uma falha de 2 discos na matriz A resultará em falha das unidades lógicas 10, 11 e 12. A unidade lógica 1 não falhará, pois é uma RAID6.

3) Pelo que entendi, a maneira preferida é criar uma matriz de disco para uma LUN no futuro e não uma matriz com poucas LUNs?

Depende. O espalhamento de LUNs thin pode melhorar o desempenho, já que a carga é distribuída em todos os drives. Separar os LUNs em matrizes diferentes protegeria da interferência entre as LUNs em termos de desempenho e confiabilidade, mas a um custo. Geralmente, é mais fácil cortar LUNs de tamanho arbitrário em um único pool grande do que ter vários pools pequenos.

    
por 09.06.2012 / 12:09