Estou tentando descobrir qual codificação usa algum arquivo de texto que recebi. Eu sei que essa codificação codifica é para 0x8E.
Pergunta específica: quais codificações possivelmente correspondem?
Pergunta geral: como posso descobrir, em geral, quais codificações correspondem a algumas restrições expressas em pares (caractere unicode, sequência de bytes)?
uchardet não ajuda: ele detecta o windows-1252, mas isso é obviamente incorreto no meu caso. De modo geral, essa ferramenta fará um trabalho pior na detecção de codificações, em comparação com o uso de restrições como conhecimento externo.
Eu entendo que, conceitualmente, qualquer codificação pode ser concebida que codifica é para 0x8E e qualquer outra coisa para qualquer outra coisa, mas eu quero pesquisar apenas entre codificações geralmente usadas pela humanidade. (Especificamente, neste caso, provavelmente alguma codificação geralmente usada no mundo da Europa Ocidental.)
Eu suspeito que isso poderia ser feito usando, por exemplo, arquivos de dados do uchardet, com o uso inteligente do grep ou de ferramentas similares. De preferência, as ferramentas envolvidas seriam livres como na liberdade de expressão e disponíveis nas distribuições padrão do GNU-Linux.