Eu sou novo no hadoop e na AWS. Eu configurei o cluster AWS EC2 de vários nós (4 instâncias t2.large) com a distribuição cloudera Hadoop. Eu testei o ambiente com exemplos básicos usando arquivos CSV, como contagem de palavras.
Agora, meu projeto principal é analisar dados em arquivos JSON. Tenho cerca de 4 milhões de arquivos JSON com aproximadamente 60 GB de dados. Cada arquivo tem uma grande entrada JSON, basicamente todas as informações sobre um registro em cada arquivo.
Estou um pouco confuso sobre como abordar isso. Pode copiar os arquivos para o HDFS e criar trabalhos de Map Reduce (usando java, como me sinto confortável) para criar grandes arquivos CSV e, em seguida, criar tabelas a partir desses CSV no Hive para análise. Como converter esses arquivos para CSV localmente pode levar muito tempo. Mesmo copiar esses arquivos para a AWS será lento, mas uma vez copiado eu posso usar o poder computacional da instância. Não tenho certeza se isso está correto? Como posso começar com isso?
Existe uma maneira pela qual eu posso processar o JSON diretamente ou qualquer outra abordagem que torne o processo eficiente? Eu tenho cerca de 1 mês para processar esses dados em um formulário que pode ser consultado e, em seguida, construir mais a partir daí.
Qualquer ajuda seria realmente benéfica.