Apenas um pequeno acompanhamento nesta questão: não foi nem JMX nem erros collectd. Eu verifiquei que JMX, collectd e Librato estavam com valores consistentes fazendo login diretamente em cada broker Kafka e lendo os valores em seus MBeans.
O problema era que estávamos usando clientes Kafka com um intervalo de auto-confirmação muito pequeno, o que gerava grandes números de mensagens sendo enviadas para cada corretor Kafka.