Texto de alta qualidade (comercial) para software de fala em inglês? [fechadas]

2

Estou trabalhando em um projeto de software e estou pesquisando produtos de conversão de texto em fala para uso. Alguém sabe quais são os atuais sistemas de texto para fala do estado da arte? Idealmente, o discurso deve ser indistinguível de um falante nativo americano ou inglês. Estou procurando produtos com SDK ou API nos quais posso me conectar facilmente.

Só para esclarecer e repetir a minha pergunta - não estou à procura de coisas como o programa de síntese de texto para fala gratuito da Microsoft, estou à procura de um produto profissional de alta qualidade.

    
por bodacydo 19.03.2012 / 00:05

2 respostas

4

Top vozes de texto para fala que ouvi até agora por branding.
Acapela Voices link
Cepstral link
ATT natural link
Nuance RealSpeak Voices link
Versões de Microsofts
L & H & Voz verdadeira, estando no fundo, a menos que eles melhorassem ultimamente.

(não sabe onde colocá-lo) Cereproc link

Acho que as vozes inglesas do tipo "Reino Unido" podem soar "melhor" da minha perspectiva americana do que as vozes "americanas". Ou o sotaque está escondendo mais dos problemas, ou eu não sei o suficiente sobre as inflexões e nuances do Reino Unido para ser tão crítico quanto isso.

Tudo isso será executado no sistema Windows, usando o SAPI 4 & 5.
Vozes não são tudo o que é necessário, no entanto, para uma voz perfeita, um bom programa com dicionários, edição de pronúncia e a sintonia usual da voz para palavras específicas será nesssiary se você quiser chegar mais perto de soar como um humano real.

Este local link tem muitos exemplos que você pode ouvir de vozes. Foi uma boa compilação das diferentes vozes.

A melhor das melhores vozes que eles dizem (eu não os ouvi ainda) não funcionam apenas com o sistema, eles funcionam apenas através do programa separado para a voz. O programa e a voz são necessários e funcionam juntos. Eu não encontrei ainda.

    
por 19.03.2012 / 01:03
1

Não sou especialista em sintetizadores de fala, mas imagino que a melhor solução provavelmente depende de vários fatores. Por exemplo:

  • Você está procurando uma solução de hardware ou software?
  • Existe um limite na pegada de memória ou na intensidade dos recursos? Existem considerações de largura de banda?
  • Você precisa de integração personalizada?
  • Como você define a qualidade? A naturalidade é mais importante ou inteligibilidade ou consistência? Ou seja síntese concatenativa geralmente produz as vozes mais naturais / humanas, já que é feita a partir de pequenos trechos gravados de vozes humanas reais. No entanto, também produz falhas muito reveladoras, em que as diferentes gravações são unidas de forma que as vozes totalmente sintéticas não têm.
  • Que tipo de voz você está procurando? A maioria dos programas de síntese de fala parece ter vozes masculinas muito mais realistas que femininas. Além disso, como um americano, vozes com pronúncias estrangeiras (por exemplo, austríacas ou britânicas) tendem a soar mais naturais para mim do que simples vozes americanas.
  • Da mesma forma, alguns mecanismos de fala produzem uma fala com som natural em uma variedade de configurações, enquanto outros podem ter uma qualidade geral menor, mas podem produzir fala extremamente realista em uma configuração específica.
  • Outra consideração específica do aplicativo é a variedade de texto de entrada que você espera receber. Porque os programas de síntese de fala específicos do domínio podem ser os mais realistas, uma vez que são produzidos a partir de pré-gravações reais de palavras ou frases inteiras. Mas isso só pode ser usado quando o texto de entrada vem de um domínio específico que pode ser facilmente implementado (por exemplo, um sistema que lê horários de filmes ou horários de ônibus, etc.). Se o domínio de entrada for pequeno o suficiente, talvez seja melhor contratar um dublador para registrar todas as frases e frases diferentes necessárias.
  • Você deseja clonar a voz de um indivíduo específico para esse aplicativo? O CereProc é uma empresa especializada nesse tipo de síntese de voz, e eles conseguiram alguns resultados bastante incríveis que realmente capturam a personalidade do indivíduo alvo.
  • Embora todas as considerações anteriores sejam principalmente relacionadas à voz de saída, a análise de texto também é um componente importante da síntese de fala, pois muitos sintetizadores de fala têm dificuldade com diferentes tipos de pontuações e representações numéricas (frações, porcentagens, dinheiro , expoentes, etc.). Portanto, você também deve considerar como o mecanismo de fala escolhido lidará com tokenizações complicadas.

Se você tem esse tipo de dinheiro para gastar, eu vejo algumas das principais marcas, como Acapela, Cepestral, AT & T, CereProc, RealSpeak, etc., que eles saibam exatamente quais são os seus requisitos de projeto, e Peça-lhes que apresentem a sua opinião ou, pelo menos, demonstrem cada um deles em frente dos principais interessados para este projeto usando algum texto de entrada real que a aplicação final precisará processar.

    
por 19.03.2012 / 01:21