Se você acha que o afunilamento de E / S de Disco é injusto, então você deve eliminá-lo da equação, e a maneira mais fácil de fazer isso é fazer todo o trabalho em discos RAM (claro que você precisará de RAM e limitado no espaço) E se a tecnologia RAM de ambos não for a mesma, você terá outro cenário injusto.
Da mesma forma, você poderia usar um servidor NFS central e, em seguida, o gargalo seria a rede.
Portanto, se a linha de base for o trabalho do Spark, a ideia é comparar e não encontrar a configuração mais rápida. Eu posso aconselhar para nivelar a situação e ter todo o conjunto de dados em um armazenamento USB e, em seguida, o disco i / o deve corresponder (contanto que você use o mesmo tipo de conector USB2 ou ambos USB3)