FWIW, você está entendendo mal o escopo do modelo de CPU de passagem do host. Ele controla apenas a identificação da CPU e seus sinalizadores de recursos - alguns aspectos da CPU ainda não estão expostos ao convidado. Por exemplo, com o XML que você tem lá, todas as 8 CPUs são expostas ao guest como sockets separados no mesmo nó NUMA. Seu host tem 2 nós NUMA, cada um com dois soquetes, cada um com quatro núcleos. Só isso provavelmente é suficiente para tornar o conceito de cache L3 no host não mapeado para o guest.
Você pode configurar a topologia da CPU virtual no XML, mas ainda não acho que isso faria com que o cache L3 aparecesse. Isso também não importa, porque você está permitindo que 8 CPUs virtuais flutuem em todas as 16 CPUs hospedeiras. Como os CPUs do host se espalham por 2 nós NUMA, você terá acesso à memória do nó NUMA cruzado por muito tempo, o que terá uma alta penalidade de latência, o que eliminará qualquer benefício do cache. IOW, seria melhor se concentrar no posicionamento mais eficiente da VM, usando a pinagem da CPU para confinar o convidado a um único nó NUMA do host.