Execute o shell script como uma das etapas no EMR AWS

4

Estamos pensando em migrar nossa infraestrutura do Hadoop do Data Center para o EMR da AWS. Como algumas das tarefas / etapas no processo de ETL são dependentes, e. o fluxo é como

  1. Map Reduzir trabalho irá gerar dados
  2. O script de shell moverá os dados gerados na etapa 1 para o local de saída

Em EMR, podemos encontrar etapas para Custom Jar, Pig, Hive, mas não encontramos a opção para executar o shell script. Poucas opções que temos para superar isso é,

  • Podemos escrever a lógica do script de shell no programa java e adicionar a etapa jar personalizada.
  • Ação do Bootstrap. Mas como nossa exigência é executar o script de shell após a conclusão da etapa 1, não tenho certeza se será útil.

Em vez de reinventar a roda, se houver alguma outra opção diretamente disponível da EMR ou da AWS que atenda ao nosso requisito, nossos esforços seriam reduzidos.

    
por Free Coder 18.02.2016 / 08:36

1 resposta

4

Por favor, consulte o link: link

aws emr create-cluster --name "Test cluster" –-release-label  --applications Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --steps Type=CUSTOM_JAR,Name=CustomJAR,ActionOnFailure=CONTINUE,Jar=s3://region.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://mybucket/script-path/my_script.sh"]
    
por 10.02.2017 / 05:58