Nível de economia no HP EVA 4000

5

Um dos discos do nosso EVA4000 morreu hoje. Este grupo de disco (todos os volumes vraid5 com baixo nível 1 e quase nenhum espaço para mais volumes, unidades de 1TiB) está sendo reconstruído com "espaço livre" agora, e levará pelo menos 15 horas para fazer o nivelamento / reconstrução.

Não podemos obter um novo disco até sexta-feira. Então, a questão é: o que aconteceria se outro disco morresse antes do nivelamento ser concluído? Nós perderíamos dados? E depois disso, quantos discos adicionais poderiam morrer antes de perder dados? 1 ou 2?

No RAID "normal", estaríamos vulneráveis à perda de dados enquanto a reconstrução ocorre, mas neste caso o espaço reservado para economia é duas vezes o tamanho do disco maior, então em pelo menos o efeito deve ser o mesmo de ter duas peças de reposição.

Obrigado antecipadamente.

Atualização : Encontrei alguns tópicos interessantes sobre essa questão, mas ainda não consigo responder a essa pergunta, por isso estou começando uma recompensa.

link

link (pergunta do Expert Exchange no google).

    
por Samuel 31.10.2012 / 19:28

3 respostas

8

Versão resumida

Nivelamento é o processo após a reconstrução. Se sua matriz está nivelando, você está tão seguro quanto estava antes do disco falhar.

Versão longa

Quando você perder um disco, o EVA tentará automaticamente usar qualquer espaço os discos restantes saudáveis para criar uma cópia redundante dos dados que usaram estar nesse disco. Se você tivesse um grupo de volumes com um grande disco virtual com Vraid5 paridade e você perdeu um único disco, o EVA irá regenerar os dados que costumava estar no disco com falha no espaço livre no primeiro disco. E se não há espaço suficiente, ele usará 2, 3 ou mais discos, mas você terá um cópia redundante de seus dados no menor tempo possível. Quanto tempo leva, eu não posso te dizer. Mas você estará de volta ao "você pode perder um disco e não perder seus dados "estado em um tempo muito curto. Isto é, naturalmente, se você tenha espaço livre suficiente nos seus discos.

Você mencionou economia. Eu não estou familiarizado com este termo, mas espero que você esteja falando sobre "nível de proteção de falha", que é o espaço que o EVA reserva para uma emergência como a que você está descrevendo. solteiro nível de proteção significa que ele irá reservar o tamanho de dois dos seus maiores discos e duplo - o tamanho de quatro discos. O EVA não reportará este espaço como livre. Então, se você tem um nível de proteção único e está usando 95% com 16 1TB discos, você terá 2 TB reservados, e estará usando apenas 95% dos 14 TB. Isso é 13.3TB usado e 2.7TB livre. E se você levar o Vraid5 para dentro conta, que é 10,64 TB espaço utilizável e 2,66 TB desperdiçada por paridade.

Quando o EVA tiver feito uma cópia redundante no menor número possível de discos, começar nivelamento (eu pessoalmente prefiro chamá-lo de "balanceamento") os dados. este processo envolve mover os dados para todos os seus discos acabam com aproximadamente a mesma quantidade de dados no final. Este processo leva terrivelmente muito tempo, especialmente se o seu uso for muito alto, mas você está seguro se tem outra falha neste momento.

Vá na tela de comando e verifique o status do grupo de volumes. Se diz que está nivelando - você está tão seguro quanto costumava estar antes do fracasso.

Agora você está com 15 TB de espaço em disco bruto e está usando 13,3 TB. O EVA quer manter um único nível de proteção, mas não pode reservar 2 TB (você tem apenas 1,7 TB sem uso), por isso, provavelmente está reportando o solicitado nível de proteção como único e real como nenhum . Também pode estar relatando seu uso como ultrapassando 100%, já que você estão usando 13.3TB e para satisfazer a exigência de proteção única que você deve ter menos de 13 TB (total de 15 TB - 2 TB reservados para proteção única).

Isso ainda significa que você ainda pode perder outro disco, e você ainda terá um armazenamento saudável. Você pode perder um segundo disco, e será o Vraid5 redundância que protegerá seus dados (embora você possa ver uma degradação no desempenho). E, claro, se você tiver sorte, poderá sobreviver a terceira e quarta falha de disco, desde que não estejam no mesmo Vraid stripe (o Vraid5 de EVA é mais parecido com o RAID5 + 0, com faixas de mais de 5 discos).

Atualização: Não relacionado à sua pergunta, mas às últimas firmware de FATA atualização tem uma "Correção para reinicializações auto-iniciadas que podem ocorrer sob raras circunstâncias ". Acredite em mim, não é bom ver discos serem jogados fora de um grupo de volume sem motivo.

Atualização 2: Atualizado porque o nível de proteção única significa o espaço para dois discos.

    
por 05.11.2012 / 14:00
4

Eu tive uma experiência semelhante com o meu MSA 4400. Mantivemos a capacidade de 95%, mas ele começou a ter 9 falhas de unidade por mês, então estou familiarizado com a borda irregular do desastre de perda de dados.

Você tem vários níveis de espaço de rascunho que podem impedir a perda de dados, e é difícil saber em qual deles você está. O espaço de reposição é um grande problema, obviamente. Além disso, o nível de vraid que você usa irá desempenhar um papel. Além disso, mesmo quando você troca a unidade, ela terá que ser reconstruída novamente.

A principal coisa que você precisa observar é o nível de proteção de falha em seu pool. Você pode definir um nível solicitado (como double) e depois compará-lo ao nível real (como single ou none). Dito isso, mesmo se você for de duplo a nenhum em uma única falha de unidade (uma das coisas que mais odeio nessa caixa é permitir isso), você ainda tem várias maneiras de impedir que você perca dados usando a paridade de vraid ou outra magia negra.

    
por 05.11.2012 / 13:37
1

Para HP EVA:
Nível 1 = a capacidade de duas das maiores unidades configuradas é reservada para poupar

O que significa que se você perder 2 dos seus discos, você fica sem peças sobressalentes e depende apenas da paridade RAID5. Em sua situação atual, você pode perder mais 1 disco sem degradação de matriz e mais 2 sem perda de dados, mas com desempenho degradado. Em nossas organizações, temos SEMPRE 2 discos sobressalentes fora do invólucro e mantidos à mesma temperatura (portanto, não será necessário nenhum revenimento antes da inserção).

    
por 06.11.2012 / 17:56