O que você está perdendo é que as gravações de arquivos são quase sempre não-bloqueantes. Desde que o sistema operacional tenha memória suficiente, uma gravação de arquivo apenas será gravada na memória. O sistema operacional irá liberar essas gravações no disco, já que possui os recursos para isso. Como você tem muita RAM, está escrevendo arquivos pequenos e tem disco rápido, seu aplicativo quase nunca precisa esperar que as gravações sejam concluídas.
Como suposição completa, acho que você é realmente limitado à arquitetura de aplicativos. Você diz que a CPU não sofre muito, mas isso provavelmente significa que sua aplicação é muito bruta para tirar proveito de grande parte dos recursos da sua CPU. Por exemplo, se sua CPU tiver 8 núcleos, mas sua arquitetura de aplicativo for de processo único, thread único, ela poderá usar apenas um núcleo.