Organize o volume dos arquivos PDF por idioma

1

Existe uma maneira de organizar 2500 arquivos PDF de acordo com a linguagem do texto dentro de cada arquivo. Eu tenho 2500 manual de manutenção em diferentes idiomas e eu tê-los em uma única pasta eu preciso extrair apenas os arquivos que estão em Inglês.

não encontrou nada na net: -)

Obrigado

    
por arin 02.12.2014 / 10:32

1 resposta

1

Em geral não. No seu caso específico, isso seria possível, mas você teria que fazer um trabalho significativo.

Em geral

Estou certo de que não há nada na especificação do PDF que obrigue a presença de metadados indicando o idioma principal do texto no PDF. Mesmo se houvesse, há tantos aplicativos diferentes de produção de PDF que você pode ter certeza de que alguns deles o omitiriam ou configurariam para um valor genérico.

Tenho certeza de que você pode produzir PDFs a partir de arquivos PS que usam uma codificação de texto arbitrária. Isso significa que você não pode garantir que a codificação possa ser determinada a partir do conteúdo em PDF. Portanto, você não pode ter certeza de poder extrair texto do qual adivinhar o idioma.

Caso específico

Se os seus PDFs forem todos de uma única origem, todos produzidos usando o mesmo conjunto de ferramentas e tiverem um intervalo limitado de idiomas, talvez seja possível escrever um programa ou script para fazer o que você deseja. No entanto, é improvável que um número suficiente de pessoas tenha essa necessidade de que haja uma solução existente facilmente encontrada que funcione no seu caso específico.

    
por 02.12.2014 / 15:01

Tags