Ele pode variar, mas, pelo menos para mim, o text2wave produz um PCM inteiro assinado de 1 canal e 16 bits. Isso é bastante normal - e ficará bem claro quando você os acertar (por exemplo, se você não assinou inteiro por engano, você obterá um som extremamente distorcido)
Com a reprodução, parece que:
play -r 16000 -b 16 -c 1 -e signed-integer /tmp/foo.raw
play -r 16000 -2 -s -c 1 /tmp/foo.raw # obsolete way for older versions of Sox
Esses parâmetros são configurados no Festival em algum lugar, suspeito. Alguns deles podem ser codificados também.
A única coisa dependente de arquitetura que você pode encontrar é grande contra little endian; na minha máquina little-endian, o Festival está escrevendo little-endian; se eu movesse esse arquivo para uma máquina big endian, provavelmente precisaria adicionar -L
. Se text2wav
fosse executado em uma máquina big-endian, não tenho certeza se gravaria dados big-little-endian.