hadoop-create-user.sh configura o diretório pessoal do usuário nomeado no HDFS sob o caminho / user.
hadoop-setup-conf.sh é usado para inicializar a configuração do cluster em um novo cluster.
hadoop-setup-hdfs.sh é usado para formatar a estrutura do HDFS e criar a árvore de diretórios padrão dentro do HDFS. Esta é uma ferramenta destrutiva e pode causar coisas ruins em um cluster existente, como dataloss.
hadoop-setup-single-node.sh é usado para configurar uma implantação de nó único, geralmente conhecida como um cluster pseudo-distribuído. Isso faz com que todos os daemons necessários sejam executados em um sistema.
hadoop-validate-setup.sh é executado teragen, terasort e teravalidate como uma maneira de fazer o teste do cluster e certificar-se de que ele está funcionando corretamente. É um benchmark básico.
slaves.sh permite que você execute um comando em todos os escravos em um cluster (basicamente, os datanodes).
start-balancer.sh é executado balanceador hadoop , que faz com que o namenode embaralhe blocos nos datanodes para garantir que todos os datanodes usem uma quantidade (aproximadamente) igual de espaço em disco. Esta é uma tarefa de limpeza que deve ser executada periodicamente.
start-jobhistoryserver.sh é a ferramenta para iniciar o servidor jobhistory, que fornece informações sobre os jobs que foram executados no lado mapreduce do cluster.
stop-balancer.sh e stop-jobhistoryserver.sh são o oposto dos dois acima.
update-hadoop-env.sh atualiza o script hadoop-env.sh, que é usado para configurar as variáveis de ambiente comuns necessárias para todas as ferramentas e daemons do hadoop no cluster.
Não há muito em termos de documentação para algumas dessas coisas. Você só precisa pesquisar nos scripts para ver o que eles realmente estão fazendo.