Como realizar diagnósticos (teste de estresse) no HP Smartarray Controller

1

No meu escritório, temos um servidor que suspeitamos que seu controlador RAID (HP Smartarray) está falhando. Uma inicialização a frio, no entanto, não indica nada.

Alguém pode me recomendar um método para testar o controlador?

Sintomas que me fazem suspeitar de um controlador com falha:

  • Acesso ao disco ficando mais lento, ficando a fila mais longa
  • Executando dmesg no console do XenServer Eu vejo muitas mensagens semelhantes a esta:

    end_request: I/O error, dev tda, sector 253655584
    

    (o número do setor nunca é o mesmo)

  • Quando movemos a VM para outro host físico, não vemos mais a mensagem acima

  • Rodando ocioso (sem nenhuma VM em execução), o dmesg não emite mais a mensagem acima

Uma pesquisa no Google indicou que a mensagem acima é mais comumente associada a um controlador SmartArray com falha.

Como posso ter certeza de que o controlador SmartArray está falhando?

    
por pepoluan 30.06.2012 / 20:12

2 respostas

4

Os controladores HP Smart Array não falham com frequência. Normalmente, a falha é repentina e não é algo que se degrada com o tempo.

De qualquer forma, você pode executar diagnósticos off-line na matriz, inicializando o HP SmartStart DVD incluído com o servidor e executando o HP Autentidade de diagnóstico de matriz (ADU) .

Você não indicou o modelo ou a geração do seu servidor ou do controlador RAID (essas coisas são úteis), mas a imagem do DVD vinculada deve abranger os sistemas HP mais recentes.

No que diz respeito à execução de um teste de estresse online, o utilitário de estresse é bom para essa finalidade.

    
por 03.07.2012 / 15:32
2

Eu tive um comportamento errático de uma matriz RAID quando uma unidade está falhando lentamente, mas não o suficiente para morrer completamente ou cruzar um limite de contador para indicar falha.

primeiro: eu suponho que você tenha o seu RAID configurado em algum tipo de configuração redundante, como RAID 10 ou RAID 5? e que você tem um hot spare configurado (ou pelo menos tem uma unidade sobressalente na mão)?

inicie o software de gerenciamento de matriz hp e observe os dados SMART de cada unidade. identificar quaisquer unidades que tenham significativamente mais erros que os outros.

começando com as unidades que você identificou, tire uma unidade. aguarde o hot spare para reconstruir se você tiver um. depois teste novamente e veja se a situação melhora. Em caso afirmativo, você encontrou sua unidade. se não, reinstale a unidade e repita com a próxima.

Além disso, minha experiência é que a atualização do firmware nos discos rígidos e dos controladores melhorou a detecção de unidades com falha.

    
por 03.07.2012 / 16:08