Eu recebo muitos memos gravando minha voz usando meu smartphone Android. As gravações podem ser uma nota rápida ou um longo ditado, variando muito em tamanho. Dependendo do aplicativo que eu uso, o áudio é salvo como um arquivo WAV ou MP3.
O que eu quero fazer é pegar essas mensagens e ditados de voz e convertê-los em arquivos de texto.
Eu encontrei este método que teoricamente usa pavucontrol para canalizar a reprodução de áudio na API de voz para texto do Google Chrome, mas não consigo fazer isso funcionar. Eu segui as instruções e não recebo nenhum erro, apenas não vejo nenhum texto na interface do Chrome. De qualquer forma, não é muito melhor do que segurar meu telefone no microfone do meu laptop. Eu estava esperando por algo em que eu não necessariamente teria que ouvir o áudio enquanto ele estava sendo convertido em texto, já que eu poderia fazer isso com meu laptop enquanto estou em um café ou algo assim.
Idealmente, haveria softwares onde eu poderia carregar um lote de arquivos de som e produziria um lote de arquivos de texto, um para cada arquivo de áudio.
Existe algum software ou método para isso no Ubuntu?