A mudança do fator de replicação HDFS padrão de 3 afeta o desempenho do mapeador?

2

Tenha uma configuração de cluster do HDFS / Hadoop e estou pensando no ajuste.

Gostaria de saber se a alteração do fator de replicação HDFS padrão (padrão: 3) para algo maior melhorará o desempenho do mapeador, com o óbvio custo de aumentar o armazenamento em disco usado?

Meu raciocínio é que, se os dados já forem replicados para mais nós, os trabalhos do Mapeador poderão ser executados em mais nós em paralelo sem nenhum fluxo / cópia de dados?

Alguém tem alguma opinião?

    
por liamf 29.06.2011 / 17:57

1 resposta

1

Conceitualmente, suas conclusões estão corretas: com blocos disponíveis em mais lugares, o planejador tem mais liberdade para alocar tarefas locais de nó (na mesma máquina que o bloco de entrada) e menos dados serão transmitidos.

No entanto, antes de dar esse passo, tem certeza de que o streaming de bloco é a fonte de lentidão? A menos que um pequeno subconjunto de nós HDFS esteja hospedando os blocos que sua carga de trabalho precisa, aumentar o fator de replicação não o ajudará. Em outras palavras, se você já tem um cluster bem balanceado em termos de distribuição de blocos relevantes, ter esses blocos colocados em nós adicionais não vai acelerar muito a execução, porque o fluxo não é o seu gargalo.

Uma verificação rápida seria as estatísticas locais versus locais do rack na interface da Web do JobTracker para o trabalho determinado.

Se o fluxo realmente é a lentidão, será E / S de disco ou E / S de rede que é o gargalo? Algumas alternativas para um aumento de replicação podem ser aumentar (4) e, em seguida, diminuir (3) a replicação de blocos, o que deve fornecer uma distribuição mais uniforme em todo o cluster. OU, descarregue e recarregue os arquivos.

Dê mais detalhes sobre por que você acha que isso é um gargalo e pode haver outras soluções apropriadas.

    
por 17.08.2011 / 22:31

Tags