Isso é um monte de fluxos de multicast, normalmente os NICs têm um limite baixo para filtragem de hardware e quando você ultrapassa isso, eles descartam tudo (implementação deficiente em NICs baratas) ou encaminham tudo para o sistema operacional para filtragem. Quando o sistema operacional está executando a filtragem, seu uso do processador está indo para o foguete do céu.
Além de investigar hardware diferente, que você lista alguns, você pode estender para 10GigE também, a única opção é usar servidores proxy.
Por experimentação, encontre vários fluxos de multicast que podem ser gerenciados de forma confiável e, em seguida, encaminhe os fluxos via TCP para um servidor central ou um conjunto de servidores. Esse servidor central pode usar aceleração de segmentação TCP ou ToE completo para tornar a carga de entrada da rede insignificante para o processador.
Não consigo obter taxas de multicast decentes com o hardware da Broadcom devido a drivers muito ruins do Windows. Seria interessante ver como o Linux funciona no mesmo hardware, isso deve lhe dar uma boa indicação do hardware e da qualidade da pilha IP.
Você lista o Windows XP como funcionando bem, a principal diferença entre o Windows Server e o Windows XP é o tempo quântico. O Windows Server fornece tempos quânticos mais longos, pode valer a pena investigar forçar um quantum mais curto (se você puder configurá-lo).