Parece que o Hive, o Impala, o Pig e outros fornecem acesso SQL ou SQL aos dados armazenados nos clusters do Hadoop. Todos parecem ter suporte para HDFS, S3 e outras formas.
Então, por que existem tantas maneiras diferentes de acessar as informações do Hadoop pelo SQL, como elas são diferentes e como o desempenho delas se compara?
Temos tantas versões diferentes porque todos os projetos foram iniciados ao mesmo tempo por mais ou menos o mesmo motivo? Em caso afirmativo, existe uma vantagem em saber mais do que um deles?
Encontrei vários artigos que tentam explicar as diferenças (por exemplo, 10 maneiras de consultar hadoop com SQL e Selecionando o SQL correto no Hadoop , mas principalmente eles listam os recursos.