Os pontos de referência mais importantes são aqueles que você toma contra seu aplicativo antes de fazer algumas alterações e, em seguida, executá-las novamente, em seu próprio hardware em seu próprio ambiente de servidor.
Isso não ajudará se você estiver tentando escolher usar a estrutura X versus a estrutura Y para seu aplicativo ou configuração, a menos que esteja em condições de testar seus servidores com várias configurações antes de entrar em produção.
Mas você tem razão quando analisa benchmarks publicados, há muitos fatores que podem afetar os resultados. Eles são inúteis? Talvez não completamente; Se um determinado framework ou servidor estiver executando bem em vários testes, ele provavelmente terá um bom desempenho para você. Se for lento, provavelmente será relativamente lento.
Você ainda pode ter outros fatores a considerar. De que adianta um framework rápido se você não tem experiência com ele e tem que lançar um produto em um prazo? As pessoas que o mantêm terão experiência nessa plataforma ou poderão aprendê-la rapidamente? Talvez você tenha experiência interna com um idioma ou servidor específico que reduza a sobrecarga de manutenção ou adicione módulos ou recursos. Talvez você precise ter uma plataforma que seja ativamente mantida para que possa ter certeza de que os bugs serão resolvidos em tempo hábil ou, quando precisar de ajuda, há uma comunidade ativa para oferecer conselhos. O servidor mais rápido não é de muita ajuda se você não conseguir configurá-lo e sintonizá-lo em primeiro lugar, afinal.