O Audacity pode fazer isso - veja aqui: link
Você também deve olhar para SoX - Sound eXchange .
Eu tenho um arquivo WAV de frases simples de leitura humana ("hello world"). Como posso dividir o arquivo WAV em vários arquivos WAV, cada um contendo uma palavra ("olá" e "mundo"), reconhecendo automaticamente a lacuna de silêncio entre as palavras?
Estou procurando uma ferramenta que funcione, mas se eu não tiver escolha, posso escrever isso em C ou C # ou em Java
O Audacity pode fazer isso - veja aqui: link
Você também deve olhar para SoX - Sound eXchange .