não é uma resposta, mas alguns apontamentos:
-
dê uma olhada na apresentação sobre nagios @ goldman sachs . eles enfrentaram problemas que você mencionou - redundância, escalabilidade: milhares de hosts, também geração de configuração automatizada.
-
Eu tinha uma configuração nagios redundante, mas em escala muito menor - 80 servidores, ~ 1k de serviços no total. um servidor mestre dedicado, um servidor escravo puxando a configuração do mestre em intervalos regulares, algumas vezes por dia. ambos os servidores cobriram o monitoramento das mesmas máquinas, eles tiveram verificação cruzada de integridade entre si. Eu usei nagios principalmente como estrutura para invocar verificações específicas de produto personalizadas [bando de tarefas cron executando scripts fazendo 'controles de fluxo artificiais', resultados ware logados em sql, nrpe plugins ware verificando execuções bem-sucedidas / com falha daqueles nos últimos x minutos]. tudo funcionou muito bem.
-
a sua lógica de quórum parece boa - um pouco semelhante aos meus 'fluxos artificiais' - basicamente continue, impleure seu self; -]. e ter nrpe apenas verificar algum tipo de flag [ou sql db com timestamp-status] como as coisas estão fazendo.
-
você provavelmente desejará construir alguma hierarquia para escalar - você terá alguns nós que reúnem a visão geral de outros nós, olhe a apresentação do primeiro ponto. o padrão nagios bifurcando para cada cheque é exagerado em um número maior de serviços monitorados.
para responder a algumas perguntas:
- no meu caso, o ambiente monitorado era uma configuração típica mestre-escravo [servidor principal de aplicativos ou sql + hot standby], sem mestre mestre.
- minha configuração envolveu 'fator de filtragem humano' - grupo de resolução que era um 'backup' para notificação por SMS. já havia um grupo pago de técnicos que, por outras razões, tinham turnos de 24/5, e eles "checavam nagios mails" como tarefa adicional, não sobrecarregando-os. e eles se encarregam de garantir que os db-admins / it-ops / app-admins realmente se levantem e consertem os problemas; -]
- Eu ouvi muitas coisas boas sobre o zabbix - para alertar e traçar tendências, mas nunca o usei. para mim munin faz o truque, eu hackeei o plugin nagios simples verificando se há 'vermelho' [crítico] cor na munin lista de servidores - apenas uma verificação adicional. você também pode ler valores de arquivos rrd do munin para diminuir o número de consultas que você envia para a máquina monitorada.