Não é apenas a arquitetura PCI envolvida aqui, mas o seu FSB, largura de banda de memória e largura de banda interna em todos os chipsets. Tome nota do comentário da Wazoox - mesmo as plataformas Xeon bastante recentes tiveram um desempenho ruim nas altas taxas de linha.
A partir da leitura de seus outros comentários, eu entendo que você está fazendo a geração de pacotes no software e empurrando isso para fora através de suas habilidades. Se você não é sensato sobre como você está gerando os dados, você pode estar saturando sua largura de banda de memória. DDR2 irá lidar com 10Gb, bit se você estiver fazendo várias cópias na memória enquanto gera os pacotes, você está realmente fazendo muito mais tráfego interno.
Além disso, se todos os 8 núcleos estiverem indexados, você não está acompanhando nenhum deles. Quer seja o carregamento interrompido ou caminhos de código pobres no processo de geração de pacotes, algo está atrapalhando. Sugiro resolver este problema primeiro. Faça o perfil do seu código e descubra se há algo óbvio que tome a maior parte do seu tempo.
Se isso não ajudar, e dependendo dos seus requisitos de uso, você pode considerar alguns cartões de processamento / captura / transmissão de rede reais, como Endace Os cartões DAG (sugiro o DAG 7.5 G2 / G4 para o PCI-e) . Eles não são interrompidos, portanto, não há carga de processamento adicional devido a interrupções. Eles não são placas de rede como tal, então você terá que construir todo o pacote e carga e lidar com a camada 2 também, mas isso não é tão caro.
Disclaimer: Eu trabalho para Endace.