existem muitas ferramentas para fazer isso, a primeira que eu posso imaginar é a do Google: link
Espero que ajude
Existe uma ferramenta que pode detectar a linguagem do texto de vários parágrafos?
A ferramenta file
tem várias heurísticas para adivinhar tipos de arquivos, incluindo um que reporta "texto em inglês". Eu não sei se ele sabe sobre outras línguas humanas, mas definitivamente poderia ser atualizado para adivinhar entre eles.
Tags language auto-detect