Falhas de unidade não registradas no HP IML no servidor ProLiant baseado em RHEL

1

Hoje tive discos em dois servidores HP ProLiant separados em falhas preditivas. Um desses servidores executa o Windows Server 2008 R2 e outro executa o Oracle Enterprise Linux 5 (uma distro baseada em RHEL5).

Se eu examinar os Logs de gerenciamento integrado desses servidores, o servidor Windows terá uma entrada "Cuidado" anunciando a Falha preditiva, mas o servidor OEL não terá o mesmo.

Temos alguns processos de negócios existentes em torno do IML (integração de tickets, relatórios, etc.), daí a preferência de ter essas mensagens lá. Todos os sinos e assobios certos soaram para a caixa do Windows, mas nada do servidor OEL.

Voltei ao histórico de alertas do meu sistema de monitoramento e isso mostra que esse sempre foi o caso - o servidor Windows reporta suas falhas de disco (preditivas e reais), enquanto o servidor OEL não o faz.

Os alertas de interceptação SNMP parecem estar funcionando; estes são registrados no arquivo de mensagens do root e são capturados no arquivo /var/log/messages . Curiosamente, o IML no servidor OEL parece estar me mostrando entradas corrigidas para falhas anteriores no disco. É apenas a entrada inicial de Cuidado ou Falha que parece estar faltando no log.

O servidor Windows possui todos os agentes de gerenciamento da HP instalados como parte da instalação do Intelligent Provisioning / Smart Start do sistema operacional. O servidor OEL tem o repo RHEL5 HP yum habilitado e tem os pacotes hpsmh , hpilo , hp-health e hp-snmp-agents instalados.

O servidor Windows é um DL380p Gen8, enquanto o servidor OEL é um DL380 G7. Eu não tenho outras gerações de servidores rodando OEL para comparar (embora pareça ser comum aos três servidores DL380 G7 que eu tenho rodando OEL). Verificação adicional mostra erros de unidade registrados em IML em outros servidores Windows, pelo menos até o G5 (portanto, não acho que seja um problema de geração).

Eu também observei os scripts startup / config em /opt/hp/hp-snmp-agents/storage/etc/cma* , mas não consigo ver nada que esteja relacionado ao IML (não que eu realmente saiba o que estou procurando aqui).

É um pacote ausente ou uma declaração de configuração (isto é, algo prontamente corrigível) que está impedindo que essas mensagens cheguem ao IML?

Ou é um problema conhecido (não me resta escolha senão hackear outra coisa no processo de negócios)?

    
por jimbobmcgee 07.10.2014 / 16:13

1 resposta

1

Acho que você não deve confiar apenas no log do HP IML. Nem tudo é relatado lá e o log pode ser limpo. Eu não vejo isso como uma fonte autorizada de status de integridade do sistema. Itens adicionais são marcados como reparados, dependendo do evento.

Se você precisar de uma comparação de como deve ser o log IML de um sistema EL5 ocupado, consulte este pastebin . Mas a maioria dos meus logs do IML foram limpos em algum momento ... Por exemplo:

# hplog -v

ID   Severity       Initial Time      Update Time       Count
-------------------------------------------------------------
0000 Information    03:14  02/26/2014 03:14  02/26/2014 0001
LOG: Maintenance note: IML cleared through hpasmcli

0001 Repaired       20:09  05/07/2014 02:38  09/08/2014 0005
LOG: Network Adapter Link Down (Slot 0, Port 1)

0002 Information    05:29  06/30/2014 05:29  06/30/2014 0001
LOG: Firmware flashed (iLO 4 1.51)

0003 Information    03:07  08/12/2014 03:07  08/12/2014 0001
LOG: Firmware flashed (iLO 4 2.00)

Os agentes de gerenciamento da HP no Linux podem ser facilmente configurados para enviar traps SNMP e também para e-mail.

Configuração típica em /etc/snmp/snmpd.conf:

# Following entries were added by HP Insight Management Agents at
#      Wed Feb 26 03:12:45 PST 2014
dlmod cmaX /usr/lib64/libcmaX64.so
rwcommunity  bigbanana
rocommunity  bigbanana
syscontact Systems <[email protected]>
syslocation Anaheim, CA

E para o /opt/hp/hp-snmp-agents/cma.conf

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm - Big Banana' [email protected]

Os agentes de gerenciamento da HP para Linux devem ser diretos. Você vai querer os seguintes pacotes:

hp-snmp-agents, hpssa, hp-health, hp-smh-templates, hpsmh, hpssacli, hponcfg

    
por 07.10.2014 / 16:23