Você observou se as VMs reclamam de interrupções interrompidas ou coisas semelhantes - talvez o hardware host esteja sobrecarregado ou não haja recursos suficientes alocados para suas VMs?
Se é uma rede escamosa ou sobrecarregada, a coisa certa a fazer seria, claro, consertar isso; mas se o seu provedor de hospedagem não estiver interessado nisso, você pode usar vários caminhos físicos conectando várias redes em ponte a diferentes dispositivos host (esperançosamente, em switches diferentes)?
O uso de caminhos de rede redundantes via 802.3ad também não poderia prejudicar.
Um comentarista em outra pergunta mencionou o cérebro dividido - uma coisa que você quer evitar a todo custo: Normalmente, um script STONITH, por exemplo, desative uma faixa de PDU em rede no outro host para que o outro host esteja inativo com certeza ; em uma VM, você pode tentar um script que desliga a outra VM por meio da API do VMware.
Finalmente - talvez o DRBD não esteja certo para o seu cenário. Se você tiver uma SAN, convém abrir o mesmo dispositivo na malha nas duas VMs como um disco bruto e depois executar o OCFS2 ou um cluster FS semelhante nele. Os amigos viram o OCFS2 rodar como um todo em até quatro nós simultaneamente, o que o liberaria para fazer clusters de vários nós com heartbeat2 em vez de ficarem bloqueados com failover de dois nós, como no heartbeat 1 by drbd.
Caveat emptor: heartbeat 2 usa arquivos de configuração XML. Nem todo mundo (por exemplo, eu) gosta disso.