pocketsphinx fará fala com texto a partir de um arquivo de áudio existente. Dependendo do formato inicial do mp3, você pode precisar de dois comandos separados.
Primeiro, converta o arquivo de áudio existente no formato de entrada obrigatório:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
A corrida pocketsphinx
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > myspeech.txt
o arquivo criado myspeech.txt terá o que você está procurando.
Caso você seja novo no Ubuntu, você precisaria instalar os programas acima usando este comando:
sudo apt install pocketsphinx pocketsphinx-en-us ffmpeg