Hadoop - Qual é o propósito dos scripts / usr / sbin / shell?

Question

Hadoop - Qual é o propósito dos scripts / usr / sbin / shell?

#1 resposta do (0 votos)

2

Estou instalando o Hadoop 1.1.2 no CentOS 6.4.

Eu li toda a documentação do Hadoop no link

Após a instalação, notei que existem muitos scripts de shell em / usr / sbin /. Mas a documentação não explica o que a maioria deles faz.

Por exemplo:

hadoop-create-user.sh
hadoop-setup-conf.sh
hadoop-setup-hdfs.sh
hadoop-setup-single-node.sh
hadoop-validate-setup.sh
slaves.sh
start-balancer.sh
start-jobhistoryserver.sh
stop-balancer.sh
stop-jobhistoryserver.sh
update-hadoop-env.sh

Existe alguma documentação suplementar para obter uma explicação sobre esses scripts?

hadoop

por davidjhp 26.06.2013 / 18:43

1 resposta

Tags hadoop

Como ativar a autenticação de dois fatores Como posso otimizar essa configuração de cache do proxy nginx?

score 0 · Answer 1

hadoop-create-user.sh configura o diretório pessoal do usuário nomeado no HDFS sob o caminho / user.

hadoop-setup-conf.sh é usado para inicializar a configuração do cluster em um novo cluster.

hadoop-setup-hdfs.sh é usado para formatar a estrutura do HDFS e criar a árvore de diretórios padrão dentro do HDFS. Esta é uma ferramenta destrutiva e pode causar coisas ruins em um cluster existente, como dataloss.

hadoop-setup-single-node.sh é usado para configurar uma implantação de nó único, geralmente conhecida como um cluster pseudo-distribuído. Isso faz com que todos os daemons necessários sejam executados em um sistema.

hadoop-validate-setup.sh é executado teragen, terasort e teravalidate como uma maneira de fazer o teste do cluster e certificar-se de que ele está funcionando corretamente. É um benchmark básico.

slaves.sh permite que você execute um comando em todos os escravos em um cluster (basicamente, os datanodes).

start-balancer.sh é executado balanceador hadoop , que faz com que o namenode embaralhe blocos nos datanodes para garantir que todos os datanodes usem uma quantidade (aproximadamente) igual de espaço em disco. Esta é uma tarefa de limpeza que deve ser executada periodicamente.

start-jobhistoryserver.sh é a ferramenta para iniciar o servidor jobhistory, que fornece informações sobre os jobs que foram executados no lado mapreduce do cluster.

stop-balancer.sh e stop-jobhistoryserver.sh são o oposto dos dois acima.

update-hadoop-env.sh atualiza o script hadoop-env.sh, que é usado para configurar as variáveis de ambiente comuns necessárias para todas as ferramentas e daemons do hadoop no cluster.

Não há muito em termos de documentação para algumas dessas coisas. Você só precisa pesquisar nos scripts para ver o que eles realmente estão fazendo.