Sem especificar o prometheus, um bom sistema de monitoramento informa a você as duas formas: ele diz o que acredita que você precisa saber e permite que você encontre o que deseja saber com rapidez e eficiência quanto possível.
A minha preferência pessoal é NAGIOS, porque o final do alerta é bastante sofisticado (vários canais de alerta, períodos de blackout, reconhecimentos e escalações, etc.) e também porque tem algumas visualizações sinópticas muito agradáveis que me permitem captar a rede saúde de relance.
Meus favoritos pessoais para este último são (a) o mapa de rede no modo "balão circular", que me permite ver rapidamente a saúde de cerca de cem nós executando quase mil verificações de serviço e (b) o " problemas de serviço não tratados "view, que me fornece uma lista detalhada de tudo que atualmente não está bem na minha rede.
Mas qualquer ferramenta que faça as coisas efetivamente (informa e lhe dá sinopses) deve ajudar. Experimente alguns, até encontrar um que funcione para você.