Existem poucos softwares disponíveis para realizar o reconhecimento de fala (ou seja, voz para texto (STT)), mas não tenho certeza até que ponto eles seriam capazes de atender às suas necessidades. Eu acho que as melhores soluções disponíveis são caras. Por exemplo, o Dragon NaturallySpeaking SDK deve ser capaz de fazer o trabalho. Alguma alternativa livre existe embora. Verifique o CMU Sphinx ou o Speech Software Recognition da Microsoft, por exemplo.
Para refinar sua pesquisa, você deve levar em consideração o sistema que você está usando (Linux, BSD, Windows, etc), bem como o tipo de gravação que você usará (os alto-falantes são conhecidos antecipadamente ou não) . Isso afetará as soluções que você pode ou não usar. Além disso, tenha cuidado, afaik, reconhecimento de fala está longe de ser preciso.
Espero que ajude!
MS SAPI
Dragon NaturallySpeaking