Implicações de vários nós do JobTracker em um cluster do Hadoop?

1

Tenho a impressão de que, potencialmente, é possível ter vários nós do JobTracker configurados para compartilhar o mesmo conjunto de nós MR (TaskTracker). Eu sei que, convencionalmente, todos os nós em um cluster do Hadoop devem ter o mesmo conjunto de arquivos de configuração (convencionalmente sob /etc/hadoop/conf/ --- pelo menos para o Cloudera Distribuição do Hadoop (CDH). Podemos definir vários rastreadores de trabalho em mapred-site.xml ? Algo como:

<configuration>
   <property>
     <name>mapred.job.tracker</name>
     <value>jt01.mydomain.not:8021</value>
   </property>
   <property>
     <name>mapred.job.tracker</name>
     <value>jt02.mydomain.not:8021</value>
   </property>
...
</configuration>

Ou existe alguma outra sintaxe permitida para isso?

Quais são as implicações de se fazer isso? Cada JobTracker obtém informações sobre a carga em cada nó do TaskTracker. Em outras palavras, os dois JobTracker poderiam coordenar seu agendamento através dos nós TT apenas com base nas informações de fofocas dos TTs ou precisariam conversar um com o outro?

Isso é documentado em algum lugar?

    
por Jim Dennis 28.08.2012 / 20:33

1 resposta

3

O Multiple JobTracker pode ser útil na arquitetura Multi-Cluster. Assim, a carga no nível do cluster pode ser distribuída entre os JobTrackers.

Em um único cluster, o seguinte pode se tornar um problema.

(a) Se vários servidores JobTracker compartilharem um cluster HDFS, cada um deverá ter um mapred.system.dir diferente ou os JobTrackers excluirão os arquivos de trabalho um do outro.

(b) O script de administração "Start-all ou stop-all" se tornará um problema, a menos que cada um tenha uma porta diferente.

    
por 30.08.2012 / 22:58