Eu acho que você quer Flume . Ele parece atingir a maioria dos pontos que você está procurando - várias fontes, confiabilidade (garantia E2E), capacidade de gravar em HDFS (armazenamento distribuído tolerante a falhas, integra-se ao Hadoop para mapear / reduzir.
Edit: Eu também gostaria de mencionar Scribe como outra possibilidade. É baseado em C ++, escrito pelo Facebook, mas parece ter sido abandonado principalmente pelo upstream. Ainda assim, é muito mais baixo que o Flume, mesmo assim, incluindo a pegada de todas as dependências do Flume, como Zookeeper. E também pode escrever para o HDFS.