Conceitualmente, suas conclusões estão corretas: com blocos disponíveis em mais lugares, o planejador tem mais liberdade para alocar tarefas locais de nó (na mesma máquina que o bloco de entrada) e menos dados serão transmitidos.
No entanto, antes de dar esse passo, tem certeza de que o streaming de bloco é a fonte de lentidão? A menos que um pequeno subconjunto de nós HDFS esteja hospedando os blocos que sua carga de trabalho precisa, aumentar o fator de replicação não o ajudará. Em outras palavras, se você já tem um cluster bem balanceado em termos de distribuição de blocos relevantes, ter esses blocos colocados em nós adicionais não vai acelerar muito a execução, porque o fluxo não é o seu gargalo.
Uma verificação rápida seria as estatísticas locais versus locais do rack na interface da Web do JobTracker para o trabalho determinado.
Se o fluxo realmente é a lentidão, será E / S de disco ou E / S de rede que é o gargalo? Algumas alternativas para um aumento de replicação podem ser aumentar (4) e, em seguida, diminuir (3) a replicação de blocos, o que deve fornecer uma distribuição mais uniforme em todo o cluster. OU, descarregue e recarregue os arquivos.
Dê mais detalhes sobre por que você acha que isso é um gargalo e pode haver outras soluções apropriadas.