Eu diria que sua melhor aposta é o OpenNMS com integração RT ou OTRS. Ao contrário do Nagios, é uma solução de gerenciamento SNMP completa com um foco FCAPS (falha / configuração / contabilidade / desempenho / gerenciamento de segurança). O quão bem ele aborda cada uma dessas categorias é até o implementador. É uma ótima solução para pessoas que estão procurando "atualizar" do Nagios e ter um servidor Cacti sentado fazendo coisas semelhantes. A integração dos dados de desempenho e falhas é absolutamente indispensável. A documentação está um pouco atrás do estado atual do produto, mas eu tenho trabalhado pessoalmente nisso ultimamente.
Se você quiser experimentá-lo, siga em frente e siga as instruções de início rápido no wiki opennms.org, mas pare em "discovery" e dê uma olhada no novo recurso provisiond whitepaper . É uma ótima ferramenta de migração também.
O sistema baseado em eventos fornece disparadores de alarmes para um painel de alarme e notificações para ... notificações. Estas podem ser chamadas telefônicas via asterisco, páginas, email, twitter, etc. Quando você ou a equipe de atendimento são notificados, você pode responder ao email com o trabalho "ack" e ter a notificação confirmada e seu ticket atualizado com os horários de início , etc.
A separação de notificações e alarmes é um ótimo recurso para sua solicitação de deduplicação. Dependendo do que está acontecendo, você pode reduzir esses alarmes por meio de uma tecla de redução e só será notificado no limite (mas ainda assim acionará todo o alarme para que você tenha os dados). Há alguns recursos avançados de correlação, mas eu realmente não me dediquei a isso.