Aplicativo de reconhecimento de voz para converter MP3 em texto?

21

Alguém sabe de um aplicativo que pode converter áudio em texto? Estou executando o Ubuntu 12.04 LTS.

    
por Kopano 09.07.2012 / 13:33

4 respostas

16

O software que você pode usar é o CMUSphinx. Ao contrário de sugerido em outra resposta, Julius não é adequado porque requer modelos. Modelos para reconhecimento de voz de vocabulário grande não estão disponíveis para Julius.

Você pode usar o pocketsphinx para converter arquivos de áudio. Esses dois comandos devem fazer o trabalho. Primeiro você converte o arquivo para o formato requerido e então você o reconhece:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

A corrida pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

O resultado será armazenado em result.txt.

    
por Nikolay Shmyrev 20.02.2014 / 21:24
9

Se você deseja converter a fala em texto, tente abrir o Centro de Software do Ubuntu e procure por Julius

Descrição

  

"Julius" é um software decodificador de reconhecimento contínuo de fala (LVCSR) de vocabulário grande de duas execuções de alto desempenho para pesquisadores e desenvolvedores relacionados à fala.

Ou outra opção que não esteja no Centro de Software é Simon

  

... é um programa de reconhecimento de fala de código aberto e substitui o mouse e o teclado.

Links de referência

link

link

link

    
por CoalaWeb 09.07.2012 / 13:54
9

Eu sei que isso é antigo, mas para expandir a resposta do Nikolay e salvar alguém no futuro, para obter uma versão atualizada do Pocketsphinx, é necessário compilá-lo no repositório do github ou do sourceforge. (não tenho certeza que é mantido mais atualizado). Observe que o -j8 significa executar 8 trabalhos separados em paralelo, se possível; se você tiver mais núcleos de CPU, você pode aumentar o número.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Depois, em: link faça o download das versões mais recentes de cmusphinx-en-us-....tar.gz e en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Então você pode finalmente prosseguir com os passos da resposta de Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx funciona bem. Eu não confiaria nele para fazer uma versão legível do texto, mas é bom o suficiente para que você possa pesquisá-lo se estiver procurando por um orçamento específico. Isso funciona especialmente bem se você usar um algoritmo de busca como o Xapian ( link ) que aceita curingas e não exige expressões exatas de pesquisa.

Espero que isso ajude.

    
por Jonathan Perry-Houts 25.04.2017 / 07:01
1

Você pode usar o speechpad.pw painel de transcrição

Veja o vídeo sobre como usar a transcrição

    
por alexei 10.07.2016 / 22:37