Testando o RAID

2

Como se avalia totalmente uma configuração RAID?

Puxar unidades é uma coisa, mas existem ferramentas e técnicas para mais?

Eu considerei colocar um prego por meio de uma unidade de acionamento (pistola de pregos acionada a pó) para ver o que aconteceria ou simular várias anomalias elétricas (curtos / abertos no cabo, sobrecargas e surtos de energia, etc.).

O que deve ser testado e como?

-Adam

    
por Adam Davis 01.05.2009 / 19:19

2 respostas

7
  • Nas unidades em que a troca a quente não é uma opção, muitos controles de invasão (por exemplo, mdadm no linux) têm um comando set-faulty que simula uma falha na unidade.
  • Nas unidades em que o hot-swap está bem, arranje uma unidade!

Eu acho que seu teste deve cobrir os casos razoáveis que você planeja. Se você está tentando configurar um servidor no mato, as flutuações elétricas são conjuntos de testes razoáveis. Se você estiver em um centro de dados, o Contrato de serviço provavelmente cobre energia.

Se você acha que uma unidade descontroladamente explodindo dentro de um rack é razoável - então teste-a. Talvez você esteja configurando um servidor em um centro de comando em Bagdá. Mas mais uma vez, menos provável se você estiver no estado de Washington.

Como regra geral, seus testes devem cobrir todos os casos esperados:

  • A direção é antiga e, eventualmente, fica ruim (encontre uma unidade em suas últimas pernas, coloque-a em funcionamento e bata até que ela falhe)
  • O disco falha em um teste inteligente, mas parece bem, mas você quer substituí-lo apenas no caso
  • Substituição geral da unidade por causa do upgrade de tamanho / desempenho ou você acabou de ouvir que o lote estava com problemas

E razoáveis casos extremos.

  • Servidor de repente perdendo energia - ok.
  • O próprio servidor é atingido por um raio - não muito.
  • Rack caindo - ok.
  • Rack atingido por caminhão - nem tanto.
  • Dirija sendo empurrado - ok
  • Dirija sendo fotografado - não muito.

E o mais importante - o RAID não protege contra drives que corrompem dados silenciosamente! Então, verifique se você está fazendo hashes e verificação de arquivos!

    
por 01.05.2009 / 19:44
1

É realmente importante testar uma unidade que falhe deselegantemente se você se importar com a confiabilidade final da solução geral. Cada solução RAID com falha (ou seja, a redundância não protege contra unidades com falha) que eu vi é devido à falha para testar falhas na unidade real. O teste normal é puxar uma unidade, reivindicar que a falha da unidade foi testada e seguir em frente.

A melhor solução é provavelmente ter uma coleção de unidades marginais ou firmware modificado que causa respostas inconsistentes. Somente os fornecedores de armazenamento têm uma probabilidade razoável de ter esse recurso.

Eu gosto da idéia de colocar um prego em uma unidade em execução, mas as forças em unidades adjacentes podem resultar em uma falha irrealista e catastrófica. Ou a falha completa da unidade pode resultar em uma falha irrealisticamente limpa.

Se eu fosse autorizado a fazer testes legítimos de um RAID, eu destruiria algumas unidades com vários recursos. Conecte os fios a componentes aleatórios na placa da unidade e frite-os ou diminua-os. De fato, coloque um prego em uma unidade, se a geometria do gabinete fizer com que isso não destrua unidades adjacentes. (Eu acho que o empurrão resultante do restante da matriz é um teste razoável). Intercepte o caminho de dados de uma unidade e retorne todos os erros possíveis, resultados sem sentido ou corrija os resultados atrasados por quantidades aleatórias de tempo.

Espere que as unidades retornem o bloco errado às vezes. Espere que os drives causem qualquer problema elétrico concebível em sua conexão.

Minha experiência é que ninguém considerando uma compra de armazenamento quer fazer testes reais. Isso poderia expor problemas reais. Eu ficaria muito interessado em saber se existe alguém que realmente testa a confiabilidade do armazenamento - certamente eles não estão publicando seus resultados.

    
por 01.06.2009 / 22:01

Tags