Melhore a qualidade do som (não de voz) do Pico2Wave text-to-speech

0

Eu uso o Ubuntu 12.04.

Eu quero fazer uso extensivo dos recursos de texto para fala do Linux para criar arquivos de áudio a partir de texto.

Eu experimentei o Festival, mas encontrar boas vozes e instalá-las é extremamente complexo, então eu as uso com suas vozes padrão.

Eu também experimentei o Pico2Wave.

O text-to-speech do festival é totalmente robótico e não natural e não é adequado para audições de longa duração. Ele tem um som de "zumbido" no fundo, mas você pode ouvir as palavras de uma forma nítida, mas novamente, robótica e de má qualidade em termos de fala.

Amostra do festival aqui

O Pico2Wave é muito natural e comparável ao texto para voz da Apple , em termos de dicção e fala humana, mas a qualidade do som em si é horrível . Parece que foi gravado em uma sala muito vazia com muito eco. Soa "abafado", lamacento, rechonchudo, com muito baixo. Tanto faz os alto-falantes chacoalharem e é muito difícil de entender às vezes, a menos que você esteja usando fones de ouvido. O som não é nada. Eu também suspeito que o som "clipes", mas eu não sou especialista em áudio.

Amostra do Pico2Wave aqui

A minha pergunta é:

Como posso melhorar a qualidade do som do arquivo de áudio gerado? Eu não sou especialista em áudio, então eu não sei o que eu tenho que mexer com (ganho ?, baixo ?, reduzir o ruído? Até que ponto? Etc.) Note que eu não estou pedindo ferramentas recomendadas, mas para ser explicou o que é exatamente errado com esse áudio e com quais qualidades eu deveria mexer no meu aplicativo de edição / aprimoramento de áudio escolhido.

NOTA: O texto da amostra é o primeiro parágrafo de "O Último dos Moicanos":

It was a feature peculiar to the colonial wars of North America, that the toils and dangers of the wilderness were to be encountered before the adverse hosts could meet. A wide and apparently an impervious boundary of forests severed the possessions of the hostile provinces of France and England. The hardy colonist, and the trained European who fought at his side, frequently expended months in struggling against the rapids of the streams, or in effecting the rugged passes of the mountains, in quest of an opportunity to exhibit their courage in a more martial conflict. But, emulating the patience and self-denial of the practiced native warriors, they learned to overcome every difficulty; and it would seem that, in time, there was no recess of the woods so dark, nor any secret place so lovely, that it might claim exemption from the inroads of those who had pledged their blood to satiate their vengeance, or to uphold the cold and selfish policy of the distant monarchs of Europe.

    
por Tulains Córdova 24.11.2016 / 17:46

2 respostas

1

Olhando para a forma de onda no Audacity, o nível de pico é muito alto - enquanto a forma de onda não parece cortada, provavelmente está causando o corte na reprodução - sons desagradáveis quando tocada com o VLC. Usando o efeito 'Amplify' do Audacity eu configurei a amplitude de pico para -3.0, o que é legal e limpo - eu tentei isso, exportei de volta para o wav e ele ficou legal e limpo no VLC. Sem dúvida, isso pode ser feito na linha de comando ou em um script usando SoX ou similar.

    
por Adam Oellermann 27.11.2016 / 07:48
1

Acabei de me deparar com o mesmo problema e no momento estou com algo parecido com

pico2wave -l $LANGUAGE -w $WAV "$*" && play -qV0 $WAV treble 24 gain -l 6

que soa muito mais "nítido".

    
por gjaekel 01.04.2017 / 12:05