Acho que a resposta dependeria do que você precisa fazer com esses dados. Se for um processo em tempo real (pesquisa) que você está procurando, provavelmente precisará de um mecanismo de pesquisa (escalonável), como o Elasticsearch ou o Solr. Aqui estão dois links que podem ajudar você a começar:
Isso é com o Elasticsearch: link
Isso é com o Solr: link
Se o processamento em lote for necessário, você provavelmente ficará melhor com o Hadoop. Embora você possa ter um design que possa fazer as duas coisas. E os mecanismos de pesquisa estão incluindo mais e mais recursos de análise, como o Elasticsearch faz com agregações.