Isso pode ser um pouco demais para o que você está tentando fazer, mas eu daria uma olhada no Intel Xeon Phi.
Veja alguns detalhes do dispositivo
A microarquitetura Larrabee (em desenvolvimento desde 2006) introduziu unidades SIMD muito amplas (512 bits) em um projeto de processador baseado na arquitetura x86, estendido a um sistema multiprocessador coerente de cache conectado via barramento em anel à memória; Cada núcleo era capaz de multi-threading de 4 vias. Devido ao design destinado à GPU e à computação de propósito geral, os chips Larrabee também incluíam hardware especializado para amostragem de texturas. O projeto para produzir um produto de varejo da GPU diretamente do projeto de pesquisa da Larrabee foi encerrado em maio de 2010. Outro projeto de pesquisa contemporâneo da Intel implementando a arquitetura x86 em um processador com muitos núcleos foi o 'Single Chip Cloud Computer' (protótipo apresentado em 2009), um design que imita um datacenter de computação em nuvem em um único chip com vários núcleos independentes - o design do protótipo incluiu 48 núcleos por chip com suporte de hardware para freqüência seletiva e controle de tensão de núcleos para maximizar a eficiência de energia, e incorporou uma rede de malha para mensagens entrepostas. O design não tinha núcleos coerentes de cache e se concentrava em princípios que permitiriam que o design fosse dimensionado para muitos mais núcleos. O Teraflops Research Chip (protótipo lançado em 2007) foi um chip experimental de 80 núcleos com duas unidades de ponto flutuante por núcleo, implementando não a arquitetura x86, mas uma arquitetura VLIW de 96 bits. O projeto investigou métodos de comunicação inter-core, gerenciamento de energia por chip e atingiu 1,01 TFLOPS a 3,16 GHz consumindo 62 W de energia.
Artigo da Intel Xeon Phi @ Wikipedia
Ele atende aos seguintes requisitos que você declarou acima
- Executa o Linux
- usa o PCI-E como sua interconexão
- Tudo em um sistema
Eu não tenho 100% de certeza de que ele pode ler o barramento de memória de outro sistema implantado, mas eu ASSUMIRIA que ele pode considerar que é usado principalmente para clusters de computação e que parece ser um recurso essencial para a estratégia de marketing para o Xeon Phi.
Devo mencionar que sou um ex-funcionário da Intel, mas não tenho nenhuma associação com a Intel ou com terceiros que usam produtos da Intel. Eu não estou promovendo produtos da Intel por qualquer razão financeira, soa como se pudesse se encaixar nas especificações para o que você está procurando.