Como faço para que meus servidores HP me enviem um e-mail quando uma unidade falha?

10

Idealmente, com a simplicidade de instalação possível e sem a necessidade de reinicializar os servidores. Principalmente para DL380 G5 se isso ajuda. Obrigado.

    
por DrZaiusApeLord 19.12.2011 / 16:11

4 respostas

15

Isso depende um pouco dos sistemas operacionais que você está executando nos servidores, mas, em geral, é possível obter alertas dos servidores HP ProLiant e dos controladores Smart Array RAID.

A lista completa de drivers e softwares de suporte para o seu os sistemas DL380 G5 estão listados aqui .

O SNMP e uma solução de monitoramento são a melhor abordagem ... Mas você pode aumentar isso com algumas das ferramentas da HP. A HP oferece o HP Systems Insight Manager , que é disponível para download e também vem com os servidores. Isso é ideal para coleções de servidores. Se você estiver procurando por alertas pontuais sem construir uma infraestrutura de gerenciamento ou monitoramento, basta instalar o Agentes de gerenciamento HP (também conhecido como Pacote de suporte ProLiant ).

Para sistemas Linux independentes, solicitarei que os agentes enviem traps por email. Geralmente, configuro o pacote de suporte com padrões ou um pacote personalizado , edito /opt/hp/hp-snmp-agents/cma.conf e altero a linha trapemail para aponte para o endereço do destinatário:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' [email protected]

Se você estiver executando o Linux e não quiser instalar o pacote completo de gerenciamento da HP, poderá desenvolver um script em torno do cciss_vol_status para consultar o status do controlador / disco. Veja também: Instalando Agentes da HP no OpenFiler

    
por 19.12.2011 / 16:21
5

Confira o HP Insight Manager

link

Eu acredito que deve funcionar com seus servidores.

    
por 19.12.2011 / 16:23
3

Eu usei o programa leve que @ewwite mencionou em sua resposta: cciss_vol_status

Se você seguir as instruções INSTALL correspondentes, o script será colocado em /usr/local/bin/cciss_vol_status .

Aqui está um script de wrapper que eu uso para grep a saída de cciss_vol_status e envie um email se qualquer matriz tiver um status de FAILED.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status='/usr/local/bin/cciss_vol_status /dev/sd*'

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host='hostname'
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test 'find ${lockfile} -mmin +${_notification_freq}'
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Chame o script acima no cron. Eu corro o cheque a cada dois minutos:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Nós usamos o HP System Insight Manager para verificar se os nossos HPs estão funcionando corretamente, mas nada além disso. Eu achei o agente do Linux um exagero para nós, já que temos outras soluções de monitoramento em funcionamento, então este script acima serve bem ao seu propósito específico.

UPDATE

Apenas uma dica de solução de problemas no caso de você se deparar com isso. Este script foi útil nesta manhã, quando recebi um email sobre um array com falha:

Cache dirty limit reached

O dispositivo foi somente leitura e não ficou visível em /proc/partitions . Eu reiniciei o servidor e vi essas mensagens no boot:

Logical drive(s) disabled due to possible data loss. Select "F1" to continue with logical drive(s) disabled Select "F2" to accept data loss and to re-enable logical drive(s)

Selecionei F2 e o RAID estava bom e montado na inicialização.

    
por 29.05.2013 / 14:45
1

instale o smartmontools. Mails você ANTES de uma unidade falhar.

    
por 21.12.2012 / 20:47