Renomeação automática de PDF com base no título

Question

Renomeação automática de PDF com base no título

#1 resposta do (7 votos)
#2 resposta do (0 votos)
#3 resposta do (0 votos)

4

Eu tenho milhares de PDFs científicos que eu preciso renomear, muitos não têm metadados. Eu gostaria de ser capaz de criar uma ação de automação que poderia abrir uma pasta, em seguida, abrir cada PDF, copiar o título e renomear o documento e salvar em uma nova pasta. Eu passei horas tentando descobrir isso, então eu agradeceria muito a ajuda. Eu tenho a Apple G5 2.26Gz quad executando os10.6 Obrigado!

pdf batch-rename applescript automator

por Ron 10.04.2011 / 14:17

3 respostas

Tags pdf batch-rename applescript automator

instale uma VTK (biblioteca de gráficos) com suporte para python 2.7 / win32 Como fechar qualquer aplicativo mesmo se o gerenciador de tarefas não conseguir fechar?

score 7 · Answer 1

Há Mendeley , uma ferramenta de pesquisa on-line que permite gerenciar publicações científicas.

Tem uma ferramenta do Mendeley Desktop na qual você pode arrastar e soltar PDFs. Mendeley analisará automaticamente os autores e títulos dos PDFs.

Depois,vocêpoderenomearoarquivoclicandocomobotãodireitoe"Renomear os arquivos de documento ...". Você também pode renomear vários arquivos de uma só vez.

Está disponível para Windows e OS X.

score 0 · Answer 2

Se bem entendi , você quer extrair o título do artigo que está presente na primeira página do PDF (normalmente em letras maiores que o resumo e o texto a seguir) e usá-lo como nome do arquivo.

Temo que você provavelmente não encontre uma solução única , uma vez que pode haver quantidades variáveis de texto sem título no início do PDF, dificultando para extrair o título real dos PDFs provenientes de diferentes periódicos.

Para obter uma solução que funcione para uma determinada porcentagem dos seus PDFs, provavelmente

use pdf2ps e ps2ascii do Ghostscript para extrair texto simples do PDF
analisa este texto simples para um título de periódico em algum lugar no primeiro kilobyte ou mais
dependendo do periódico, tente criar uma heurística extraindo o título do texto original.

É claro que se você puder encontrar uma ferramenta que possa extrair o tamanho relativo do texto, bem como texto simples de um PDF, isso provavelmente também ajudará bastante.

Boa sorte - seria interessante ver se você encontra uma maneira de automatizar isso! A principal coisa que faço ao fazer o download de artigos é nomeá-los de forma sistemática, mas com certeza seria ótimo ter algo para fazer isso depois ...

score 0 · Answer 3

Se você não quiser usar software externo e quiser escrever seu próprio script, tente abrir seus PDFs como texto simples com um editor de texto e, em seguida, procure padrões. Pesquise a palavra-chave "título" ou pesquise palavras no título e veja onde elas aparecem.

Para dar alguns exemplos (revistas científicas em química):

ACS (American Chemical Society): o título aparece entre parênteses após a segunda ocorrência da palavra-chave '/ title'

Publicação Wiley: o título aparece entre parênteses após a primeira (e única) ocorrência da palavra-chave '/ Title'

Publicação Rsc: não tem o título em texto simples.

Springer: parece depender da revista

Como a maioria dos periódicos que leio é de wiley ou acs, a situação seria muito boa para mim.

Isso pode ser um plano: 1. estudar pdfs dos editores que você lê jornais da maioria das vezes 2. escolha aqueles que têm o título em texto simples. isso não deve ser um problema, pois todos eles incluem seu nome nos últimos Kbytes do pdf 3. gerenciar aqueles com um script

Dependendo de quantos periódicos você lê, use a tag de título para o título do artigo, isso pode ser útil ou não.

Uma abordagem mais geral seria: pdf- > text- > Você poderia começar daqui: link