Tenho experiência em monitorar esse tamanho de rede. Além disso, estou sempre avaliando novas possibilidades quando se trata de monitorar soluções.
Dito isso, estou mais em uma perspectiva da Microsoft do que você, e nem tenho certeza se consideraria algumas das soluções mencionadas em soluções de nível corporativo, mas talvez ainda possa ajudar .
Quase todos os sistemas de monitoramento consistem em alguns componentes comuns - o banco de dados e os servidores de gerenciamento. (NetIQ, Nimsoft, Quest, VMware, SCOM, só para citar alguns.)
A quantidade de hardware que você vai precisar depende muito de como você planeja fazer o seu monitoramento - especificamente - quantos pontos de dados você deseja capturar. Para as coisas mais básicas, como utilização da CPU, memória, espaço de armazenamento, etc., seus requisitos serão menores. Se você quiser monitorar uma enorme quantidade de métricas de aplicativos, como quantas solicitações por segundo seus hosts estão recebendo, verificar arquivos de log de palavras-chave etc., bem, a quantidade de dados coletados pelo sistema de monitoramento será muito maior e os requisitos de hardware vão aumentar.
Outras coisas a serem consideradas são fatores como: você deseja carregar agentes em cada máquina (normalmente permite informações mais detalhadas) ou você quer tentar ficar completamente sem agente? Você está monitorando todas as máquinas físicas, todas as VMs ou uma mistura das duas? Como sobre equipamentos de rede, você está monitorando isso também? Em grandes redes heterogêneas como essa, o que você geralmente acaba sendo várias soluções em execução para cobrir todas as suas bases. Se você tem um monte de VMs para monitorar, certas soluções como VMware VC Ops e Quest vFoglight obtêm informações do vCenter (ou de vários vCenters), o que significa que muitas das métricas são mais precisas do que se fossem medidas na própria VM. e também significa que você não precisa carregar um agente na VM. Você também pode normalmente compactar mais máquinas em uma solução de monitoramento somente de VM. O VMware VC Ops tem clientes hoje que executam 10k VMs em uma única instância de VC Ops.
Dito isso, na minha opinião pessoal, o VC Ops é quase como um mecanismo de análise muito sofisticado do que uma solução de monitoramento real. É meio bacana ver isso dizer "com base no seu crescimento atual, o host ESXi [x] no Datacenter [y] atingirá a capacidade em 30 dias".
Tudo bem, então, em geral, existem várias maneiras diferentes de projetar um banco de dados, mas lembre-se de que você precisa de alta disponibilidade. Você não pode trabalhar em uma rede tão grande e assumir a propriedade de uma solução de monitoramento que escurecerá completamente se um dos nós do seu banco de dados ficar inativo. Portanto, não compre 1 servidor HP Proliant. Mas dois. Ou três. Agrupe-os. Planeje para HA. Então, preço que fora - US $ 30 mil?
Em segundo lugar, muitas dessas soluções terão um tipo de função de "servidor de gerenciamento" em sua infraestrutura. Na minha experiência, isso geralmente pode ser virtualizado muito bem. Eles agem como intermediários entre os agentes e o repositório central, equilibrando a carga e garantindo que todos os dados provenientes dos milhares de agentes sejam inseridos no repositório de forma ordenada. Você verá que nesses tipos de soluções, você precisa ter alguns servidores de gerenciamento para HA, mas não deseja muitos, pois cada servidor de gerenciamento adicional causará contenção e bloqueios, já que todos eles apenas inserem dados no repositório. .
Portanto, planeje um ou dois hosts de virtualização para eles. Outros $ 15k talvez? Isso é apenas um parque de bailes. Eu não sei se a sua empresa vai construir isso em novos equipamentos Cisco UCS, ou Dell PowerEdges que você compra na Craigslist.
A maioria das soluções de nível corporativo é configurável o suficiente para aproveitar o SQL Server ou o MySQL ou até mesmo o Postgres. No entanto, muito poucos deles são totalmente incríveis em tudo, e o que eu costumo ver uma empresa fazendo é executar duas ou mais soluções de monitoramento em paralelo.
edit: também não se esqueça de planejar a distribuição geográfica. Eu tenho servidores que residem fisicamente em Amsterdã e estão sendo monitorados em Miami. É possível, mas eu não estou orgulhoso de admitir isso.
edição # 2: Também é importante notar que, enquanto algumas empresas são muito escrupulosas em gastar dinheiro em software - isso depende apenas da cultura da empresa - uma boa companhia perceberá o valor do suporte corporativo. Apenas algo para ter em mente.