Depois de muita escavação, descobri a principal razão pela qual um servidor estava funcionando muito melhor que o outro:
um tinha 1024 por /sys/block/sda/queue/nr_requests
enquanto o outro tinha o valor padrão que era 128.
Eu tenho uma configuração de 3 servidores, um front-end do HAproxy enviando pedidos para 2 servidores backend.
Os servidores backend usam hardware idêntico e também software idêntico (Debian 6.0.6). Eles são configurados de forma semelhante e também recebem aproximadamente o mesmo número de solicitações a serem processadas (o HAproxy cuida disso).
Apesar disso, tem uma carga constantemente maior do que a outra e parece estar relacionado a discos rígidos, tanto quanto eu posso dizer, usando iotop
Os processos que parecem ler mais são processos php-fpm.
Qualquer conselho sobre onde eu poderia procurar seria útil.