Aplicativo de reconhecimento de voz para converter MP3 em texto?

Question

Aplicativo de reconhecimento de voz para converter MP3 em texto?

#1 resposta do Nikolay Shmyrev (16 votos)
#2 resposta do CoalaWeb (9 votos)
#3 resposta do Jonathan Perry-Houts (9 votos)
#4 resposta do alexei (1 votos)

21

Alguém sabe de um aplicativo que pode converter áudio em texto? Estou executando o Ubuntu 12.04 LTS.

software-recommendation speech-recognition

por Kopano 09.07.2012 / 11:33

4 respostas

Tags software-recommendation speech-recognition

Grupos padrão para usuários no Ubuntu? Adicionar autoridades de certificação em todo o sistema no Firefox

score 16 · Answer 1

O software que você pode usar é o CMUSphinx. Ao contrário de sugerido em outra resposta, Julius não é adequado porque requer modelos. Modelos para reconhecimento de voz de vocabulário grande não estão disponíveis para Julius.

Você pode usar o pocketsphinx para converter arquivos de áudio. Esses dois comandos devem fazer o trabalho. Primeiro você converte o arquivo para o formato requerido e então você o reconhece:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

A corrida pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

O resultado será armazenado em result.txt.

score 9 · Answer 2

Se você deseja converter a fala em texto, tente abrir o Centro de Software do Ubuntu e procure por Julius

Descrição

"Julius" é um software decodificador de reconhecimento contínuo de fala (LVCSR) de vocabulário grande de duas execuções de alto desempenho para pesquisadores e desenvolvedores relacionados à fala.

Ou outra opção que não esteja no Centro de Software é Simon

... é um programa de reconhecimento de fala de código aberto e substitui o mouse e o teclado.

Links de referência

link

score 9 · Answer 3

Eu sei que isso é antigo, mas para expandir a resposta do Nikolay e salvar alguém no futuro, para obter uma versão atualizada do Pocketsphinx, é necessário compilá-lo no repositório do github ou do sourceforge. (não tenho certeza que é mantido mais atualizado). Observe que o -j8 significa executar 8 trabalhos separados em paralelo, se possível; se você tiver mais núcleos de CPU, você pode aumentar o número.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Depois, em: link faça o download das versões mais recentes de cmusphinx-en-us-....tar.gz e en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Então você pode finalmente prosseguir com os passos da resposta de Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx funciona bem. Eu não confiaria nele para fazer uma versão legível do texto, mas é bom o suficiente para que você possa pesquisá-lo se estiver procurando por um orçamento específico. Isso funciona especialmente bem se você usar um algoritmo de busca como o Xapian ( link ) que aceita curingas e não exige expressões exatas de pesquisa.

Espero que isso ajude.

score 1 · Answer 4

1

Você pode usar o speechpad.pw painel de transcrição

Veja o vídeo sobre como usar a transcrição

por alexei 10.07.2016 / 20:37