Eu encontrei muitas ferramentas de monitoramento de sistema distribuído que escalam para milhares de nós, no entanto, parece não haver nenhuma que demonstre ou mesmo afirme ser capaz de lidar com 10 000 ou mesmo 100 000 de nós. Teoricamente isso deve ser possível com uma arquitetura de rede hierárquica em cluster. Alguém já encontrou um sistema de monitoramento que faz tal afirmação ou um white paper / documento acadêmico que discute uma implementação teórica?
Tags untagged