Teste de hardware automatizado de servidores HP?

9

Como parte dos servidores de provisionamento, executamos o Insight Diagnostics da HP para testar o hardware. Este é um processo manual. Existe uma maneira de automatizar a execução do Insight Diagnostics?

Existe o software hpdiags com a opção "-rd:" "Execute um diagnóstico de todos os dispositivos diagnosticáveis." Do meu teste isso não faz muito (apenas lê as informações SMART dos discos). Alguém teve mais sorte com isso?

Hardware: BladeCenter c7000 com blades HP ProLiant BL460c, DL360s.

OS: ESXi e Ubuntu.

    
por Mark Wagner 11.02.2015 / 19:42

1 resposta

8

Então, vou fazer outra pergunta:

Por que é necessário executar diagnósticos de hardware HP Insight nos servidores antes do provisionamento?

No meu comentário acima, indiquei que há pouco a ganhar fazendo isso preventivamente em grandes ambientes HP ProLiant. Eu deveria esclarecer meus pensamentos sobre isso ...

Em ordem de frequência decrescente, vamos analisar os tipos de problemas que você normalmente encontrará:

  • Matriz de armazenamento e discos : O controlador RAID se reportará ao SO, logs, SNMP, e-mail, ILO e acenda luzes bonitas para indicar a saúde.

  • RAM : O processo POST detectará o status da RAM, bem como o sistema de relatórios para o sistema operacional, logs, SNMP, e-mail, ILO e acendendo um indicador LED no painel frontal Exibição do Systems Insight (SID) . Além disso, eu não sou fã de RAM processos de burn-in porque a detecção de erros desses sistemas já é robusta.

  • Térmica e ventiladores : a temperatura do servidor e a velocidade do ventilador são reguladas pela OIT. Existem mais de 30 sensores de temperatura nesses sistemas , o sistema de refrigeração é extremamente eficiente. Isso ainda reporta ao sistema operacional, logs, SNMP, e-mail e no SID.

  • Fonte de alimentação : o status da fonte de alimentação é informado ao SO, logs, SNMP, e-mail e no SID, bem como uma luz indicadora real na unidade de alimentação real.

  • Funcionamento geral : é fácil avaliar rapidamente a exibição do SID, além do LED Saúde interna e saúde externa. Isso também é relatado para os logs do servidor, SNMP, e-mail e ILO.

Nãoconsigopensaremnenhumacondiçãoquepossaserencontradanapré-implantaçãoquenãopossa/nãopossaserrelatadaduranteotempodeexecuçãoouapósainstalaçãodosistemaoperacional.

Ociclodediagnósticogeralmentenãoencontranadaquandoexecutadoemumsistemasemproblemasanterioresóbvios.IssoocorreprincipalmenteporqueoservidorprecisafazerPOSTeinicializaroutilitárioouofirmwaredoIntelligentProvisioningparaexecutaroutilitário.

Poroutraspalavras,qualqueritemqueseriaum"SPOF" sério para o servidor provavelmente impediria o sistema de executar o seu autodiagnóstico.

Os itens de falha mais comuns ainda são bastante robustos; discos devem estar no RAID e são hot-swappable. Ventiladores e fontes de alimentação também são hot-swappable. Sua RAM tem limites de ECC e há opções de reposição on-line para a maioria das plataformas ProLiant. Não há nada que você possa fazer para induzir falhas nesses componentes executando diagnósticos. Adicione o fato de que você está usando gabinetes HP C7000 Blade, que têm redundâncias internas , e sua incidência de falha deve ser bem baixa.

    
por 13.02.2015 / 20:22