Perguntas sobre 'hadoop'

O Apache Hadoop é uma estrutura de software que suporta aplicativos distribuídos com uso intensivo de dados sob uma licença gratuita. Ele permite que os aplicativos trabalhem com milhares de computadores independentes e petabytes de dados. O Hadoop foi derivado dos documentos MapReduce e Google File System (GFS) do Google.
1
resposta

Um trabalho de hadoop pode ser pausado ou suspenso?

Estou usando o hadoop-0.20.2. Observando hadoop fs . Eu sou capaz de matar ou reprovar uma tarefa individual. Existe alguma maneira de pausá-lo para que os slots do mapa sejam liberados para outra tarefa?     
01.12.2010 / 17:57
1
resposta

Configure um cliente Windows 10 para um KDC Linux Realm

Eu configurei um servidor KDC e criei um Realm EXAMPLE.COM . Aqui está o meu arquivo krb5.conf: [libdefaults] renew_lifetime = 7d forwardable = true default_realm = EXAMPLE.COM ticket_lifetime = 24h dns_lookup_realm = false dns_...
01.12.2016 / 15:31
2
respostas

Como corrigir o cluster do Hadoop HDFS com blocos ausentes depois que um nó foi reinstalado?

Eu tenho um cluster Hadoop de cinco escravos (usando CDH4) --- escravos são onde DataNode e TaskNode são executados. Cada escravo tem 4 partições dedicadas ao armazenamento HDFS. Um dos escravos precisava de uma reinstalação e isso fazia com que...
10.08.2013 / 14:36
1
resposta

Hadoop - Nó de Nome e Nó de Dados na mesma máquina

Temos 7 servidores físicos idênticos (CPU de 2 x 8 núcleos, 128 GB de RAM, 8 discos de 6 TB) que serão usados para o Hadoop. Todas as máquinas estão conectadas ao switch 10G com interfaces 10G duplas. Como não temos muitas máquinas, queremos usa...
15.03.2016 / 09:32
1
resposta

Forward-sync para HDFS? (OU continuar um upload incompleto do hdfs?)

Alguém tem uma boa sugestão para fazer uma sincronização direta com o HDFS? ("forward-sync" em contraste com "sync bidirecional") Basicamente eu tenho um grande número de arquivos que eu quero colocar no HDFS. É tão grande que, muitas vezes,...
14.09.2009 / 17:52
3
respostas

Existe uma maneira de fazer o grep do conteúdo gzip em hdfs sem extraí-lo?

Estou procurando uma maneira de zgrep hdfs files algo como: hadoop fs -zcat hdfs://myfile.gz | grep "hi" ou hadoop fs -cat hdfs://myfile.gz | zgrep "hi" isso realmente não funciona para mim está lá de qualquer maneira para...
22.01.2015 / 11:49
2
respostas

Hadoop HDFS: define o tamanho do bloco de arquivos a partir da linha de comando?

Eu preciso definir o tamanho do bloco de um arquivo quando eu carregá-lo no HDFS, para algum valor menor que o tamanho do bloco do cluster. Por exemplo, se o HDFS estiver usando blocos de 64MB, talvez eu queira que um arquivo grande seja copiado...
11.08.2011 / 17:22
4
respostas

Cluster do Hadoop. 2 Rápido, 4 médio, 8 máquinas mais lentas?

Vamos adquirir um novo hardware para usar apenas em um cluster do Hadoop e estamos empenhados no que devemos comprar. Digamos que temos um orçamento de US $ 5 mil, se comprarmos duas máquinas super agradáveis por US $ 2.500 / cada, quatro por ce...
17.06.2009 / 22:56
1
resposta

Execute o shell script como uma das etapas no EMR AWS

Estamos pensando em migrar nossa infraestrutura do Hadoop do Data Center para o EMR da AWS. Como algumas das tarefas / etapas no processo de ETL são dependentes, e. o fluxo é como Map Reduzir trabalho irá gerar dados O script de shell move...
18.02.2016 / 08:36
1
resposta

Como conectar dois contêineres docker rodando no mesmo host?

Eu tenho dois contêineres docker em execução docker ps resultados CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 0bfd25abbfc6 f_service:latest "/usr/local/st...
29.01.2015 / 07:16