A média de carga não é o uso da CPU por palavra. Essa é uma explicação do que significa Média de Carga frequentemente citada. Portanto, uma média de carga de 40 parece bastante razoável para 100 threads que não usam 100% de um núcleo.
Para medir o uso real da CPU, eu procuraria usar o perf que pode ler os contadores de desempenho de hardware . Perf é uma ferramenta muito poderosa e pode medir muitas coisas, no seu caso eu poderia tentar:
perf stat -e cycles ./your_executable