Parece que o seu servidor atingiu o número máximo de solicitações por segundo e o tempo por solicitação (inversamente um do outro).
Diga que os números são no máximo 100 solicitações por segundo.
Se sua simultaneidade for de 200 solicitações, o que isso significa é que, após (digamos) 4 segundos, você terá 200 solicitações feitas. O servidor só responderá a 100 solicitações a cada segundo e, após cada resposta, o cliente fará uma nova solicitação (para trazer o total em andamento de volta para 200). Isso significa que cada solicitação levará 2 segundos (aproximadamente / em média) para obter uma resposta, porque o servidor essencialmente recebe um backlog de 100 solicitações atrás dos 100 nos quais ele realmente pode trabalhar.
Se você aumentar a simultaneidade para 400, você não alterará as solicitações por segundo que o servidor pode manipular, mas mudará o tamanho do backlog (para 300), o que altera o tempo necessário para cada solicitação dada ( 4 segundos). Você ainda recebe 100 respostas por segundo; eles são apenas para pedidos de 4 segundos.
Se você continuar subindo, em algum momento você chegará ao ponto em que o servidor não poderá mais manter um backlog. Nesse ponto, você provavelmente começará a ver alguns pedidos fracassados. A ferramenta que você tem pode não ser capaz de acertar isso.