Monitorando falha de hardware em servidores HP DL

2

Existem outras ferramentas além das fornecidas pela HP para monitorar falhas de componentes nesses servidores do RHEL5?

    
por Garry Harthill 21.05.2009 / 18:38

3 respostas

2

As ferramentas & Os OIDs SNMP são o que usamos principalmente para monitoramento de componentes em geral ...

Alternativamente, você também pode usar smartmontools para monitorar as unidades de disco e a maioria dos sensores deve aparecer em lm_sensors

    
por 21.05.2009 / 18:57
2

Os ganchos de hardware da HP são proprietários, mas expõem sua instrumentação por meio de vários métodos 'abertos', como SNMP / WMI / WBEM, etc. Assim, você NÃO TEM que usar o SIM / SMHP.

    
por 21.05.2009 / 18:56
1

Você deve instalar o conjunto completo de ferramentas da HP, os pacotes hpasm / hprsm, etc. Eles são literalmente os pacotes mais difíceis de instalar que eu já vi. Parece que eles foram escritos por pessoas sem preocupação com a facilidade de implantação. Eles fornecem um shell script que você pode executar manualmente, usar isso primeiro até descobrir como hackear esse script, escrever um wrapper, instalar os RPMs individualmente ou inclinar-se ou o fornecedor se comportar de maneira razoável.

Você deve monitorar o syslog em busca dos erros dessas ferramentas.

Você deve analisar as saídas hpasmcli (show server, show dimm) e hpacucli (controller all show, depois para cada slot do controlador = X pd all show) para identificar falhas. Se você confiar nos relatórios do syslog, você perderá falhas e terá desastres embaraçosos.

Você também deve analisar a saída do hplog e limpar a saída após a verificação, arquivando essa saída em algum lugar. Considere isso como uma verificação redundante para a verificação hpasmcli / hpacucli.

Você deve usar o hponcfg para garantir que o ILO esteja configurado e conecte-se a ele para garantir que ele seja realmente responsivo.

Certifique-se de atualizar o firmware e faça isso regularmente. A HP libera atualizações críticas de firmware, por exemplo, que transformam uma falha de um pequeno erro de memória sem identificar o DIMM incorreto em uma luz de falha. A HP mudou minha opinião sobre atualização de firmware quando não é absolutamente necessário. (Bem, isso é absolutamente obrigatório, você simplesmente não tem ninguém te dizendo isso).

Desista do material do SNMP. Você tem muito trabalho a fazer, isso é apenas um trabalho adicional que não lhe dará a funcionalidade completa que você precisa, de modo que você ainda terá que fazer o outro trabalho.

Os servidores da HP ainda são os melhores servidores da Intel em relação ao relato / gerenciamento de problemas de hardware. Eles só têm certos problemas extremamente irritantes. Talvez se todos os clientes reclamarem pelo menos uma vez, eles facilitarão a implantação. Não há desculpa para isso.

Um DL3 [68] 0 G5 executando o RHEL5 e monitorando constantemente as ferramentas de gerenciamento da HP, juntamente com testes de estresse ocasionais de disco e memória, será a solução Intel mais confiável do mercado. Basta fazer a sua diligência para se certificar de que você recebe o valor do seu dinheiro. A HP fornece as ferramentas, elas simplesmente não as tornam tão fáceis de usar quanto deveriam.

Use somente a memória RAM HP. Só não vale a pena o contrário. Você não precisa de fornecedores apontando uns para os outros quando um DIMM tem uma luz de falha acesa.

Faça um passo a passo do datacenter para luzes de falha regularmente e use-o para corrigir falhas nos seus scripts de monitoramento. Foi assim que aprendi que o syslog é pouco útil e você deve verificar hpasmcli / hpacucli regularmente.

    
por 05.06.2009 / 07:09