Renomeação automática de PDF com base no título

4

Eu tenho milhares de PDFs científicos que eu preciso renomear, muitos não têm metadados. Eu gostaria de ser capaz de criar uma ação de automação que poderia abrir uma pasta, em seguida, abrir cada PDF, copiar o título e renomear o documento e salvar em uma nova pasta. Eu passei horas tentando descobrir isso, então eu agradeceria muito a ajuda. Eu tenho a Apple G5 2.26Gz quad executando os10.6 Obrigado!

    
por Ron 10.04.2011 / 16:17

3 respostas

7

Mendeley , uma ferramenta de pesquisa on-line que permite gerenciar publicações científicas.

Tem uma ferramenta do Mendeley Desktop na qual você pode arrastar e soltar PDFs. Mendeley analisará automaticamente os autores e títulos dos PDFs.

Depois,vocêpoderenomearoarquivoclicandocomobotãodireitoe"Renomear os arquivos de documento ...". Você também pode renomear vários arquivos de uma só vez.

Está disponível para Windows e OS X.

    
por 10.04.2011 / 18:36
0

Se bem entendi , você quer extrair o título do artigo que está presente na primeira página do PDF (normalmente em letras maiores que o resumo e o texto a seguir) e usá-lo como nome do arquivo.

Temo que você provavelmente não encontre uma solução única , uma vez que pode haver quantidades variáveis de texto sem título no início do PDF, dificultando para extrair o título real dos PDFs provenientes de diferentes periódicos.

Para obter uma solução que funcione para uma determinada porcentagem dos seus PDFs, provavelmente

  • use pdf2ps e ps2ascii do Ghostscript para extrair texto simples do PDF
  • analisa este texto simples para um título de periódico em algum lugar no primeiro kilobyte ou mais
  • dependendo do periódico, tente criar uma heurística extraindo o título do texto original.

É claro que se você puder encontrar uma ferramenta que possa extrair o tamanho relativo do texto, bem como texto simples de um PDF, isso provavelmente também ajudará bastante.

Boa sorte - seria interessante ver se você encontra uma maneira de automatizar isso! A principal coisa que faço ao fazer o download de artigos é nomeá-los de forma sistemática, mas com certeza seria ótimo ter algo para fazer isso depois ...

    
por 10.04.2011 / 18:35
0

Se você não quiser usar software externo e quiser escrever seu próprio script, tente abrir seus PDFs como texto simples com um editor de texto e, em seguida, procure padrões. Pesquise a palavra-chave "título" ou pesquise palavras no título e veja onde elas aparecem.

Para dar alguns exemplos (revistas científicas em química):

ACS (American Chemical Society): o título aparece entre parênteses após a segunda ocorrência da palavra-chave '/ title'

Publicação Wiley: o título aparece entre parênteses após a primeira (e única) ocorrência da palavra-chave '/ Title'

Publicação Rsc: não tem o título em texto simples.

Springer: parece depender da revista

Como a maioria dos periódicos que leio é de wiley ou acs, a situação seria muito boa para mim.

Isso pode ser um plano: 1. estudar pdfs dos editores que você lê jornais da maioria das vezes 2. escolha aqueles que têm o título em texto simples. isso não deve ser um problema, pois todos eles incluem seu nome nos últimos Kbytes do pdf 3. gerenciar aqueles com um script

Dependendo de quantos periódicos você lê, use a tag de título para o título do artigo, isso pode ser útil ou não.

Uma abordagem mais geral seria: pdf- > text- > Você poderia começar daqui: link

    
por 11.04.2011 / 11:21