Quando você está falando, sua voz está sendo gravada através do microfone e do hardware de áudio do seu computador. Este sinal de áudio está disponível para qualquer aplicativo no seu computador. Quando você está falando com alguém pelo Skype, o sinal de voz é codificado em vários pacotes. Você precisaria reverter a engenharia do protocolo do Skype para decodificar o sinal de voz.
Se você estiver falando em um telefone celular no modo alto-falante, a qualidade pode não ser boa o suficiente para reconhecimento de voz. Além disso, o software de reconhecimento de voz precisaria ser treinado tanto na sua voz quanto na da outra pessoa.
Não sei ao certo que relevância o Google tem aqui.