Sua pergunta é difícil de responder. Você está perguntando se existe um aplicativo de software que realiza essa função? Você está perguntando como você pode criar software para fazer isso?
É evidente que você examinou o problema para perceber que o som varia em diferentes circunstâncias do mundo real, tornando a detecção mais desafiadora.
Você provavelmente já conhece aplicativos como Shazam , que pode identificar música através de microfones de telefone celular. Acho surpreendente como é possível identificar músicas apesar de ambientes ruidosos, áudio distorcido ou compactado / limitado e outros artefatos. Obviamente, existem alguns algoritmos sendo usados para contornar essas imperfeições de áudio.
Existem perguntas (ou pensamentos) que qualquer pessoa que tente responder à sua pergunta deve apresentar:
- Quais são os seus requisitos de precisão? Em outras palavras, o aplicativo precisa ser capaz de lidar com ruído adicional ou outras coisas que, de outra forma, dificultariam a fácil identificação?
- Você está familiarizado com o processamento de áudio, como o que um usuário final pode ter com SoundForge ou Audacidade ? Se você estiver familiarizado com o modo como os computadores armazenam e processam áudio, você terá mais facilidade para avaliar a qualidade ou o desempenho do software existente ou, pelo menos, ter uma vantagem inicial ao criar o seu próprio.
- Que tipo de microfone está sendo usado? Os conselhos dados podem variar com base na qualidade e posicionamento do microfone. Para esse assunto, o emissor de som pode ser importante também. Será um celular? Outro dispositivo eletrônico? De que distância? O emissor será sempre o mesmo dispositivo ou variará? Saber essas coisas ajudará a restringir um pouco o foco se você precisa de uma solução simples ou complexa.
- Você menciona o efeito doppler na sua pergunta, o que levanta a questão de a que velocidades o detector ou o emissor poderiam estar viajando. Em outras palavras, como o muito deslocamento doppler é esperado, e a que limites a aplicação deve ser corrigida?
- Você menciona que o som emitido pode ser pré-gravado ou "tempo real", o que sugere que uma pessoa pode produzir os sons usando teclas ou botões de algum tipo. (Isso é semelhante ao modo como os tons DTMF funcionam nos sistemas telefônicos, mencionados abaixo.) Isso também implica que a duração dos tons e as lacunas no som podem variar.
- Se você pretende criar seu próprio software, provavelmente precisará dividir esse projeto em pequenos passos e identificar os que você não tem certeza. Perguntas de programação específicas podem ser feitas em StackOverflow.com . Mas definitivamente evite perguntar sobre todo o projeto de uma só vez!
Existem muitos aplicativos de software e dispositivos eletrônicos que podem detectar tons como tons DTMF (de sistemas de telefonia), você pode querer pesquisar isso como um lugar para começar (com base nos tons monofônicos em sua amostra de áudio).
Espero que alguns dos pontos acima ajudem a concentrar um pouco as coisas e, talvez, incentivem você a editar sua pergunta para fornecer mais detalhes. Livros inteiros foram escritos sobre o assunto de reconhecimento de áudio por sistemas digitais. Boa sorte com seu projeto.