Problemas de memória com o aplicativo Spark no EMR da AWS

2

Estou tentando chegar ao fundo dos problemas de memória há algum tempo e simplesmente não consigo entender qual é o problema. Qualquer ajuda é muito apreciada.

O erro é:

[![OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x00000005662c0000, 10632822784, 0) failed; error='Cannot allocate memory' (errno=12)
# There is insufficient memory for the Java Runtime Environment to continue.
# Native memory allocation (malloc) failed to allocate 10632822784 bytes for committing reserved memory.]

Eu tenho um pequeno trabalho de ignição que estou executando em um cluster. Das várias permutações que executei, estas são as minhas descobertas: (novos clusters em cada caso, todos idênticos na configuração)

CLI SOMENTE - Um cluster eu inicio e executo todos os passos via o CLI, cada passo resulta em um ligeiro aumento na memória que persiste, Ganglia mostra a memória cache do cluster aumentando a cada passo, cai novamente após a conclusão, mas não para o nível básico. Eventualmente resultando em não haver memória suficiente para alocar para uma nova JVM para executar quaisquer etapas adicionais. O uso do htop neste cluster mostra aos servidores de histórico de faíscas o principal processo intensivo de memória - o servidor de histórico poderia reter muita informação?

CONSOLE ONLY - Este cluster foi criado da mesma maneira que os outros, a diferença é que eu adiciono as etapas através do console. (Eu vim para tentar isso porque eu estava simplesmente sem idéias) Esse cluster executou apenas uma etapa até o momento, e mostrou o oozie como sendo o processo de maior consumo de memória.

Outros - Todos os outros clusters foram executados e falharam da mesma maneira, um caso interessante é onde um novo cluster foi iniciado, uma etapa foi executada, mas consumiu gradualmente a memória até o ponto em que a exceção ocorreu novamente. Para todos esses outros clusters, o hadoop sempre foi a tarefa no topo da árvore de processos para consumo de memória.

Qualquer ajuda ou sugestão sobre como resolver seria fantástica, agradeço antecipadamente.

Anexei algumas imagens que podem ajudar a explicar o que precede.

    
por null 16.06.2016 / 13:05

0 respostas