Um cluster do Hadoop não é de forma alguma um substituto para um data warehouse tradicional. O Bare Hadoop só faz duas coisas:
- Armazenamento e recursos distribuídos
- MapReduce
No topo do Hadoop é construído um ecossistema inteiro de pacotes de software, principalmente Porco, colmeia, HBase, Phoenix, faísca, ZooKeeper, Cloudera Impala, Flume, Sqoop, Oozie, Storm.
Hoje, você pode escolher o que deseja de uma infinidade de produtos.
Deseja usar o SQL? Dê uma olhada nestes servidores de virtualização de dados: Centro de dados Cirro, Servidor de informações Cisco / Composite, Plataforma Denodo, Informatica Data Services, Virtualização de dados Red Hat JBoss e Stone Bond Enterprise Enabler Virtuoso.
Deseja que o produto armazene dados em seu próprio banco de dados SQL nativo ou no Hadoop? Exemplos são EMC / Greenplum UAP, HP Vertica (no MapR), Microsoft PolyBase, Actian ParAccel e Teradata Aster Database (via SQL-H).
Adicione a estes:
- Apache Hive - o SQL-on-Hadoop original
- Ferrão de Hortonworks
- Apache Drill - implementação aberta do Dremel do Google (também conhecido como BigQuery)
- Spark SQL - processamento paralelizado em memória, em tempo real
- Apache Phoenix - o "skin do SQL para HBase"
- Cloudera Impala - outra implementação do Dremel / Apache Drill
- HAWQ para Pivotal HD - processamento paralelo de SQL e alta conformidade com os padrões SQL na própria distribuição do Hadoop da Pivotal
- Presto - Construído por engenheiros do Facebook e usado internamente
- Oracle Big Data SQL - só se integra ao Oracle Database 12c
- IBM BigSQL - vinculado ao Hadoop e InfoSphere BigInsights da IBM
Conclusão: Quaisquer que sejam seus requisitos de armazenamento de banco de dados, você pode encontrar algum produto no Hadoop, ou uma combinação de produtos, que faz o que você quer.
A desvantagem: encontrar o (s) seu (s) produto (s) ideal (is), aprender a orientá-los e quais são suas deficiências, desenvolva seu aplicativo de banco de dados distribuído, reportar bugs e pressionar por melhorias - tudo isso vai demorar uma quantidade horrível de tempo da sua parte. Você está procurando o impacto funcional - portanto, procure o impacto sobre você e seu tempo, especialmente se você não tiver um especialista em Hadoop em sua equipe.
Conclusão final: O Hadoop não é um Data Warehouse, mas os aplicativos construídos nele são, e todos os sabores possíveis são atendidos. Mas boa sorte para navegar naquela selva. Se suas necessidades são modestas o suficiente, sugiro criar seu próprio aplicativo construído sobre MapReduce, ou indo para uma solução mais clássica usando as ferramentas que você sabe. Saiba também que o MapReduce não é uma boa combinação para todos os problemas.
Mais algumas leituras: