Perguntas sobre 'hadoop'

O Apache Hadoop é uma estrutura de software que suporta aplicativos distribuídos com uso intensivo de dados sob uma licença gratuita. Ele permite que os aplicativos trabalhem com milhares de computadores independentes e petabytes de dados. O Hadoop foi derivado dos documentos MapReduce e Google File System (GFS) do Google.
4
respostas

A inicialização do datanode do HDFS falha quando os discos estão cheios

Nosso cluster HDFS está apenas 90% cheio, mas alguns datanodes têm alguns discos que estão 100% cheios. Isso significa que quando reiniciamos em massa o cluster inteiro, alguns datanodes não conseguem iniciar com uma mensagem como esta: 201...
29.10.2013 / 15:53
2
respostas

Como o hadoop decide quais são os nomes de host de seus nós?

Atualmente, os URLs gerados pelo jobtracker & namenode retorna nomes de host como bubbles.local ou apenas bolhas. Eles acabam não resolvendo a menos que a máquina cliente tenha especificado isso em seu arquivo / etc / hosts. Quando execut...
04.09.2012 / 19:33
2
respostas

Excluindo o diretório temporário do HDFS

Existe uma maneira inteligente de excluir arquivos antigos do diretório hdfs / tmp? (Só para ter certeza, eu não estou falando sobre o unix FS / tmp)     
09.08.2012 / 23:28
1
resposta

A maneira mais segura de emitir comandos no cluster do ubuntu com o usuário sudo'ing?

Esta é uma espécie de pergunta de acompanhamento para uma pergunta não respondida que tenho sobre
16.09.2011 / 21:37
1
resposta

Gerenciamento de descritores de arquivos disponíveis em um cluster do Hadoop

Atualmente, sou responsável por um cluster do Hadoop em rápido crescimento para meu empregador, atualmente construído na versão 0.21.0 com o CentOS como o SO para cada trabalhador e nó mestre. Eu trabalhei com a maioria dos problemas de configur...
02.12.2010 / 21:03
2
respostas

Emparelhando as soluções MySQL e NoSQL

Temos alguns conjuntos de dados bastante grandes (eventos do usuário e informações de registro do servidor - > 100 GB) que estão se tornando bastante difíceis para o processamento de dados. Eu vi muita atividade em torno do NoSQL / Hadoop / e...
26.07.2010 / 04:31
1
resposta

Possível ssh em um servidor sem usar o sinalizador -i para key?

Eu tenho 3 instâncias do EC2 e todas usam a mesma chave privada. Estou configurando um cluster de hadoop entre esses nós e eles exigem uma entrada sem senha para que isso funcione. Como posso usar essa chave privada para acessar facilmente os...
26.09.2016 / 19:03
2
respostas

Como remover a opção RAID da HP DL360 Gen 9 para HDFS

Estou configurando um novo servidor DL360 G9 para uso em uma prova de conceito de cluster do Hadoop. Como o HDFS cuidará do RAID, preciso ignorar essa opção no controlador de matriz G9 (Smart Array P440ar). Eu simplesmente não consigo encontrar...
05.10.2015 / 18:06
1
resposta

Hadoop hdfs namenode está jogando um erro

Lista completa de erros: hb@localhost:/etc/hadoop/conf$ sudo service hadoop-hdfs-namenode start * Starting Hadoop namenode: starting namenode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-namenode-localhost.out 12/09/10 14:41:09 INFO namenod...
10.09.2012 / 11:14
1
resposta

A mudança do fator de replicação HDFS padrão de 3 afeta o desempenho do mapeador?

Tenha uma configuração de cluster do HDFS / Hadoop e estou pensando no ajuste. Gostaria de saber se a alteração do fator de replicação HDFS padrão (padrão: 3) para algo maior melhorará o desempenho do mapeador, com o óbvio custo de aumentar o...
29.06.2011 / 17:57