Eu acho que seu raciocínio tem uma falha - você diz que não é possível comparar as duas máquinas. Mas tendo apenas a sua descrição, temos que assumir que os dois benchmarks foram executados de forma comparável - então sim, é claro, você pode comparar as duas máquinas com os benchmarks.
Mas a única coisa que você pode dizer é que a máquina A é melhor executando o benchmark A e ruim no benchmark B. E vice-versa.
Se você quiser invalidar os resultados de benchmark, procure a relevância do resultado, a relevância na forma como foi executado e as diferenças entre os participantes e o modo de medição.
Editar -
para uma excelente introdução em técnicas e execução de benchmarks de computador, veja
Jain, Raj: A arte da análise de desempenho de sistemas de computadores (Wiley, 1991)
Se me permitissem um, e apenas um, livro sobre benchmarks, é isso.