Existe algum software (ou pseudocódigo) que possa digitalizar automaticamente um pedaço de texto (colado na ferramenta ou lido em .doc / .pdf) e identificar dados de citações usando formatos padrão? Os dados seriam divididos em seus campos constituintes e exportados em XML, CSV ou algum outro formato de dados estruturado. Eu olhei para o cb2Bib, mas ele só conseguiu extrair o ano das referências no estilo Harvard, o que é insuficiente.
18
Respostas:
Dê uma olhada nesta lista de analisadores de citações que podem gerar XML a partir do texto de entrada:
http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (no modo de manutenção em 1 de agosto de 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10
Com o freecite, você pode usar um
curl
comando para enviar citações da seguinte maneira (em PHP):fonte
No momento (2017), o projeto de código aberto mais ativo que implementa isso parece ser Anystyle Parser (última versão 07-2016). Pode ser usado através de uma interface da web, API ou baixado como um RubyGem.
Eles mencionam explicitamente em seu site que a implementação é inspirada no ParsCit (última versão 2013?) E FreeCite (última confirmação 2009).
Forme também o site deles:
Esse é um recurso muito interessante, que torna essa a implementação mais interessante (imho). O treinamento parece ser bastante direto, conforme explicado na documentação da API . Você apenas fornece alguns resultados corrigidos manualmente e executa o
Anystyle.parser.train
comando. Não sei se o ParsCit e o FreeCite também suportam isso, mas, se não, isso me parece uma grande diferença de recursos.fonte
Experimente uma ferramenta como o Regex Buddy ou o Expresso .
Se você não é um programador, as Expressões regulares podem ser um pouco intimidantes, mas não são tão difíceis assim, especialmente com uma ferramenta decente como uma das opções acima.
Aqui está um exemplo de alguém que usa expressões regulares para extrair citações:
Expressão regular de análise de citações
fonte
Mendeley deve ser capaz de fazer isso. Ele pode importar PDFs e depois exportar os metadados para BibTeX, RIS e EndNote XML. É gratuito para download e é multiplataforma.
Edit: Eu testei isso em alguns documentos. A importação de PDF parece funcionar bem para referências formatadas corretamente. Para um documento que criei usando o LaTeX, todas as referências com o autor no formato "Smith, J." ou "J. Smith" etc. foram importados bem. Se o autor for uma empresa (uma única palavra) ou a referência estiver incompleta, isso também não funcionará. As referências extraídas podem ser facilmente editadas e exportadas para o BibTeX, etc.
fonte
Eu já vi um programa Westlaw fazer isso para citações legais, mas provavelmente não é isso que você está procurando. O Reference Manager pode fazer algo assim para formatos acadêmicos, mas nunca o usei.
fonte
Tente http://www.crossref.org/guestquery/#stqsearch
Este é capaz de analisar automaticamente o texto de referência e oferece um link para um artigo on-line.
fonte
O Zotero é um plugin para o Firefox, que faz isso para o conteúdo da web. Não tenho certeza se existe uma ferramenta semelhante para documentos / pdfs
fonte
Provavelmente isso pertence mais como um comentário ao @Abhinav, mas o zotero definitivamente apenas lida com dados estruturados, como você encontrará descrito aqui:
http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools
Um truque interessante pode ser tentar escrever um programa que use cada citação como uma consulta de pesquisa no seu banco de dados favorito e, em seguida, use algo como zotero para gerar as informações ref. Você também pode baixar informações estruturadas de serviços como citeUlike. Deixe-me saber se você acabar fazendo algo assim! (coloque no github se você precisar;).
fonte