Há um proxy statsd com hashing consistente, o que torna possível espalhar o tráfego statsd entre vários agregadores statsd, cada um usando seu próprio conjunto de nomes de métricas. É um elemento de escalabilidade crucial em sua arquitetura, permitindo dimensionar os processos do statsd.
Grafite também é complicado, mas esperamos que você não precise de escala infinita e possa fazer muito bem sharding por serviço ou algum outro parâmetro estático.
A parte mais difícil é o dimensionamento da webapp, e isso depende muito de quais são suas consultas mais pesadas. No entanto, você sempre pode pré-agregar dados para os gráficos mais difíceis e se livrar da maior parte da carga.
Eu uso o HostedGraphite há algum tempo para evitar toda essa dor, esses caras implementaram seu próprio backend do Riak para o Carbon e fazem todo o dimensionamento lá.