Nesta resposta, detalhe minhas idéias sobre a origem desses arquivos. Esta não é uma resposta completa, já que uma análise forense mais detalhada requer acesso prático a pelo menos alguns subconjuntos de arquivos completos.
Alguns pontos que me atingem nos fragmentos que vi:
- As palavras estão em tcheco
- Existem seqüências estranhas separando as palavras e elas repetem muito
- Essas sequências estranhas são compostas de caracteres UTF-8 que não fazem sentido algum, exceto que alguns deles são cirílicos na natureza.
Minha conclusão é que esses arquivos não eram originalmente arquivos de texto, mas estavam erroneamente convertidos para UTF-8 como se fossem texto, usando uma página de código que continha caracteres cirílicos.
Por exemplo, a sequência onipresente de d193
é a letra cirílica small gje cujas diferentes representações de página de código são :
Issonosdáumalistadepossíveiscodificaçõesdosarquivosoriginais,quedependemnossistemasoperacionaisoriginais.SeelesforamcriadosemumcomputadorcomWindows,suapáginadecódigooriginaleraprovavelmenteoWindows-1251,masemumMacelesprovavelmenteemMacintoshcirílico.Claro,tambéméinteiramentepossívelqueatraduçãoparaOUTF-8usouacodificaçãoerrada.
Porexemplo,encontramosaseqüênciaSPT~X83..Telecom
.Aempresa"SPT Telecom" não é mais do que a
Empresa de telecomunicações nacional checa, fundada em 1993,
cuja presença em um texto do Reuters newswire
é bastante lógico. No entanto, não há motivo para nenhum separador ao lado de um espaço em branco.
entre as duas palavras.
Minha explicação para essas cordas intrigantes que se repetem entre as palavras é que elas não eram e não poderiam ser parte do texto. Eu acredito que eles devem ter sido então caracteres binários colocados entre as palavras, que provavelmente tinham alguma conexão para a formatação dos arquivos. O programa de conversão que converteu os arquivos para UTF-8, portanto, converteu-os cegamente para caracteres UTF-8 que não fazem sentido.
Mesmo tentando converter essas seqüências para binário, usando qualquer uma das páginas de código no acima da lista, não obtenho sequências significativas. No entanto, tenho experiência com texto arquivos vindos de alguns editores de texto antigos que colocavam caracteres "invisíveis" no texto cuja finalidade nunca seria exibida, mas sim controlar a exibição.
Eu acredito que esta é a explicação para esses arquivos, mas eu não sei disso estranho formato de arquivo. Poderia ter sido algum editor de texto checo desconhecido (pelo menos desconhecido para mim). Se os arquivos puderem ser verificados quanto às datas contidas no texto, isso pode ajudar a diminuir as possibilidades.
Eu não acredito em sua teoria de que os arquivos originais sejam bem construídos e codificado em ISO-2022 , uma vez que estas sequências estranhas não parecem ser (ou nunca foram) ISO -2022 seqüências de controle.