Análise automática de texto de citações em referências acadêmicas

16

Existe algum software (ou pseudocódigo) que possa digitalizar automaticamente uma parte do texto (seja colado na ferramenta ou lido em .doc / .pdf) e identificar dados de citação usando formatos padrão? Os dados seriam então divididos em seus campos constituintes e exportados em XML, CSV ou algum outro formato de dados estruturados. Eu olhei para cb2Bib mas ele só conseguiu extrair o ano de referências no estilo de Harvard, o que é insuficiente.

    
por Alistair Knock 18.08.2009 / 10:56

8 respostas

4

Dê uma olhada nesta lista de analisadores de citações que podem gerar XML a partir do texto de entrada:

link
link
link (no modo de manutenção a partir de 1 de agosto de 2012)
link
link

Com o freecite você pode usar o comando curl para enviar citações da seguinte maneira (em PHP):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );
    
por 01.08.2012 / 21:43
2

Experimente uma ferramenta como Regex Buddy ou Expresso

Se você não é um programador, as Expressões Regulares podem ser um pouco intimidadoras, mas elas não são tão difíceis, especialmente com uma ferramenta decente como uma das opções acima.

Veja um exemplo de alguém que usa expressões regulares para extrair citações:

Expressão regular de análise de citações

    
por 18.08.2009 / 11:09
2

No momento (2017), o projeto de código aberto mais ativo implementando isso parece ser o Anystyle Parser (última versão 07-2016). Ele pode ser usado por meio de uma interface web, API ou baixado como um RubyGem.

Eles explicitamente mencionam em seu website que a implementação é inspirada em ParsCit (última versão 2013?) e FreeCite (último commit 2009).

Também formam o site deles:

AnyStyle Parser uses powerful machine learning heuristics based on Conditional Random Fields that can be trained by everyone using our built-in editor.

Esse é um recurso muito legal, que torna a implementação mais interessante (imho). O treinamento parece ser bem direto, como explicado na documentação da API . Você apenas fornece alguns resultados corrigidos manualmente e executa o comando Anystyle.parser.train . Eu não tenho certeza se o ParsCit e o FreeCite também suportam isso, mas se não, isso parece uma enorme diferença de recursos para mim.

    
por 07.04.2017 / 11:48
1

Mendeley deve ser capaz de fazer isso. Ele pode importar PDFs e exportar os metadados para o BibTeX, RIS e EndNote XML. É gratuito para download e é multi-plataforma.

Edit: Eu testei isso em alguns documentos. A importação de PDF parece funcionar bem para referências formatadas corretamente. Para um documento que criei usando o LaTeX, todas as referências com o autor na forma "Smith, J." ou "J. Smith", etc., foram importados bem. Se o autor é uma empresa (uma única palavra) ou a referência está incompleta, também não funciona. As referências extraídas podem ser facilmente editadas e exportadas para o BibTeX, etc.

    
por 29.09.2009 / 14:10
1

Eu vi um programa da Westlaw fazer isso por citações legais, mas provavelmente não é isso que você está procurando. Reference Manager pode fazer algo assim para formatos acadêmicos, mas eu nunca usei isso.

    
por 22.11.2009 / 10:45
1

Experimente link

Este é capaz de analisar automaticamente o seu texto de referência e oferece um link para um artigo on-line.

    
por 14.01.2013 / 13:52
0

O Zotero é um plugin para o firefox que faz isso para o conteúdo da web. Não tenho certeza se existe uma ferramenta semelhante para documentos / pdfs

    
por 01.09.2009 / 12:02
0

Isso provavelmente pertence mais como um comentário ao @Abhinav, mas o zotero definitivamente lida apenas com dados estruturados, como você acharia descrito aqui:

link

Um hack interessante pode ser tentar escrever um programa que usa cada citação como uma consulta de pesquisa em seu banco de dados favorito, então usa algo como zotero para gerar a informação de ref. Você também pode baixar informações estruturadas de serviços como o citeUlike. Deixe-me saber se você acaba fazendo algo assim! (coloque no github se você fizer;).

    
por 13.05.2011 / 21:39