Eu acho que bhyve é seu primeiro recurso, não o seu último. Se você prender seu ambiente de construção, estará testando seu produto em um mundo e bibliotecas 6.3, com um kernel 11.x. Seus clientes, no entanto, estarão executando um 6.3 world / libs e um kernel 6.3.
As diferenças entre os kernels 6.3 e 11.x podem aumentar com o tempo, imagino. Isso poderia levar a situações como uma em que o kernel 11.x do seu teste faz The Right Thing, mas o kernel 6.3 do seu cliente não faz isso e, portanto, você não pode reproduzir o relatório de problemas do seu cliente.
IMO, bhyve é a melhor ferramenta para este trabalho.