check_mk A leitura do sensor IPMI PCM falha aleatoriamente

1

Eu uso o check_mk_agent para monitorar um servidor com o IPMI e as ferramentas freeipmi instaladas. Tanto quanto eu posso ver, o monitoramento aleatoriamente não detecta nenhum valor retornado pelo sensor IPMI "Temperature_PCH_Temp".

Isso é um problema, pois resulta em um estado CRITICAL acionando uma notificação. A interrupção dura apenas mais de uma verificação, o seguinte é sempre OK. A temperatura não está em nenhuma área de borda e nem as leituras antes da falha nem depois mostram uma Temp que tende a exceder um limite.

Alguém tem uma ideia sobre o que poderia ser o motivo desse comportamento e como evitá-lo?

    
por Julian Kessel 16.11.2012 / 15:06

4 respostas

1

Versão 01.78 do Supermicro IPMI para o meu X9DRD-iF. Você pode fazer o download no link

    
por 30.11.2012 / 16:04
0

Soa como uma falha de hardware (placa IPMI escamosa, sensor ruim) - Você deve entrar em contato com o fornecedor do hardware e relatar o problema para ver se pode obter uma substituição.

    
por 16.11.2012 / 17:38
0

As ferramentas ipmi-sensor / ipmimonitoring do FreeIPMI reportam N / A quando encontram um sensor que não tenha uma leitura retornada. Embora seja raro (e, como diz o voretaq7, é provável que seja um sensor bloqueado), não é irracional que um sensor IPMI simplesmente diga "Não tenho uma leitura para você agora".

Eu não posso falar com o que está no script check_mk_agent, é possível considerar "N / A" crítico e relatar isso de volta.

Também é possível que o sistema remoto (se estiver preso) esteja retornando valores ilegais para você, o que poderia levar a um estado "CRITICAL" quando o estado do sensor de saída for usado.

Você pode querer verificar se os sensores --ignore-not-available ou as opções --ignore-unrecognized-events irão ajudá-lo nessa situação.

    
por 19.11.2012 / 19:10
0

Você configurou novas tentativas para a verificação - para que ele não o alerte apenas porque teve um pequeno hickup, certo?

btw, acho que Albert Chu está correto sobre N / A sendo manipulado incorretamente. É provavelmente avaliado apenas no primeiro inventário do sistema; há um email com correções relevantes de um usuário chamado Bernhard Schmidt nas listas de discussão check_mk.

Mas, como este encadeamento prova, tais problemas são basicamente sempre relacionados apenas a problemas de hardware:)

    
por 17.05.2013 / 02:40