Estou executando uma computação paralela usando MPI para paralelismo em um cluster que usa o IBM LSF para planejamento de job. Frustrantemente, sempre que eu submeto um trabalho, percebo que às vezes ele é executado mais lentamente por um fator de cerca de 2 ou mais, e as outras vezes é executado conforme o esperado. No começo eu pensei que haveria um conjunto de nós que estavam com defeito, fazendo com que a simulação diminuísse, mas não consegui localizar quais nós, se algum.
Estou perdido a respeito de onde devo começar a procurar para determinar qual é o problema sem recorrer a um rastro e erro meticulosos. Estou muito confiante de que o problema é realmente com o cluster e não minhas simulações em si.Alguém poderia me dar algumas sugestões de como depurar esse problema?