Desvantagens do monitoramento de condições atuais e do sistema de previsão de falhas [closed]

1

Eu tenho uma pergunta: quais boas soluções (software / hardware) foram desenvolvidas e aplicadas na empresa para previsão de falhas online? Zabbix, Openstb, Cactos e alternativas similares? Você pode listar um pouco mais? Você pode descrever quais vantagens e desvantagens elas têm, especificamente no aspecto de previsão de falhas?

Eu quero saber as desvantagens deles e fazer algumas melhorias por modelo \ algoritmos. Se você não sabe muito sobre o conceito de previsão de falhas on-line, consulte a seguinte descrição. Se você já sabe, apenas pule.

Online failure prediction -- It is an approach to evaluate whether an incoming failure will occur in the near future, and when the failure will occur, and in which component (maybe software or hardware) the failure will occur. It's a short-term prediction by tracking failure, detected error reporting, undetected errors' symptoms, faults's auditing (actively searching the faults, for example, search inodes' inconsistency in Linux filesystems).

Uma introdução muito mais detalhada e abordagens relevantes estão descritas no documento, link

Muito obrigado!

    
por zhangjie 23.01.2016 / 07:46

1 resposta

1

Comparação de sistemas de monitoramento: link

Eu não acho que algum sistema de monitoramento tenha previsão de falhas fora da caixa. Seu papel fornecido é muito acadêmico. Você ainda pode construí-lo na parte superior de algum sistema de monitoramento, que fornecerá dados / eventos / falhas para as previsões do algoritmo de falha.

Alguns sistemas de monitoramento têm:

  • previsão métrica (previsão de tendências). Não é uma previsão de falha. Um simpático artigo semi-acadêmico tem o Zabbix sobre isso - Previsão do Zabbix .

  • detecção de anomalias - mais uma vez, não é uma previsão, é detecção. O mais famoso OSS para detecção de anomalias é o Skyline . Sistemas baseados em RRD (Cacti) usam o algoritmo de Holt Winter Holt Winter . O Graphite também tem algumas funções matemáticas , que podem ser usadas para detecção de anomalias.

Se você quiser implementar / melhorar a detecção de falhas, torne-a genérica:

  • camada de entrada - algum conceito de plug-in, portanto, o usuário deve poder usar / escrever o próprio plug-in, o que extrairá dados do sistema de monitoramento específico do plug-in
  • camada de detecção de falha - há muitos algoritmos, portanto, cada um deles deve ser configurável
  • camada de saída - semelhante à camada de entrada, portanto, o evento sobre a falha prevista pode voltar ao sistema de monitoramento ou a algum outro sistema de alerta

Por favor, torne-o usuário (não acadêmico) amigável e use o Github. Ping me, quando você precisa testá-lo. : -)

    
por 23.01.2016 / 11:14