Vou responder a minha própria pergunta, pois encontrei alguns recursos, mas também vou marcar as respostas de qualidade que vêm como respostas também, então sinta-se à vontade para contribuir. Comentários sobre meus pensamentos aqui também são mais que bem-vindos.
Este link tem algumas informações sobre o hardware de provisionamento do Spark e, pelo que consigo entender basicamente, você pode tratar o Spark como a camada de aplicativo em uma pilha de três camadas. Portanto, você pode executar (por exemplo) Cassandra ou HBase em seus nós de armazenamento e manter o Spark em nós de "aplicativo" com CPUs e memória mais strongs, mas com menos armazenamento disponível. A Ethernet de 10 Gbps entre os nós parece ser importante nesses casos de uso.
Suponho que isso levanta a questão de como se faz o processamento em um conjunto de dados muito grande, considerando que você pode continuar transmitindo dados de um banco de dados Hbase para fazer o processamento, mas acho que isso se resume à arquitetura de aplicativos, vai cair fora do escopo deste site.