O que eu acredito que você está tentando medir (declarando divergência ) é o PESQ , Avaliação Perceptual da Qualidade da Fala, de cada arquivo. Esta é uma forma padronizada da recomendação ITU-T P.862 (02/01) link .
Você tem projetos diferentes implementando o que você está procurando. Por exemplo link