Um benchmark é uma medida (padronizada) de algum sistema e retorna um número (ou um conjunto de números). Fazer a medição é uma maneira repetível é fácil. O que é difícil (ou mesmo muito difícil) é apresentar uma referência que signifique algo, ou seja, forneça números que indiquem se a configuração é melhor ou pior que outra para seu uso específico.
Neste caso particular, os sistemas de memória virtual reagirão de maneira muito diferente, dependendo do (s) padrão (is) de acesso à memória. Qualquer texto dos sistemas operacionais dará uma visão geral do que está acontecendo e compará alguns algoritmos simplistas extremamente para lidar com o problema. Sistemas operacionais reais usam técnicas muito mais complexas do que essas.
O melhor conselho: tente descobrir o que seria um mix de aplicativos representativo e a carga correspondente para sua aplicação específica, com o objetivo de carregar os picos que o sistema deve manipular e medir esses picos.
(Sim, fazer isso é um grande trabalho. Cada parte dele. Ninguém sério lhe dirá que o benchmarking representativo é muito fácil.)