Se você não quiser usar software externo e quiser escrever seu próprio script, tente abrir seus PDFs como texto simples com um editor de texto e, em seguida, procure padrões. Pesquise a palavra-chave "título" ou pesquise palavras no título e veja onde elas aparecem.
Para dar alguns exemplos (revistas científicas em química):
ACS (American Chemical Society): o título aparece entre parênteses após a segunda ocorrência da palavra-chave '/ title'
Publicação Wiley: o título aparece entre parênteses após a primeira (e única) ocorrência da palavra-chave '/ Title'
Publicação Rsc: não tem o título em texto simples.
Springer: parece depender da revista
Como a maioria dos periódicos que leio é de wiley ou acs, a situação seria muito boa para mim.
Isso pode ser um plano:
1. estudar pdfs dos editores que você lê jornais da maioria das vezes
2. escolha aqueles que têm o título em texto simples. isso não deve ser um problema, pois todos eles incluem seu nome nos últimos Kbytes do pdf
3. gerenciar aqueles com um script
Dependendo de quantos periódicos você lê, use a tag de título para o título do artigo, isso pode ser útil ou não.
Uma abordagem mais geral seria: pdf- > text- >
Você poderia começar daqui:
link