Identificando eventos relacionados a datas em um parágrafo

13

Existe uma abordagem algorítmica para identificar se as datas indicadas em um parágrafo se correlacionam com eventos (frases) específicos no parágrafo?

Exemplo, considere o seguinte parágrafo:

Em junho de 1970, o grande líder prestou juramento. Mas foi somente depois de maio de 1972, após a morte do Ministro de Estado, que ele assumiu as rédeas do país. Enquanto ele gozava de apoio popular até meados de 1980, sua influência começou a cair posteriormente.

Existe um algoritmo (determinístico ou estocástico) # que pode gerar uma 2-tupla (data, evento), em que o evento implica, pelo parágrafo, que ocorreu na data ? No caso acima:

  • (Junho de 1970, grande líder prestou juramento)
  • (Maio de 1972, assumiu as rédeas)

    ou melhor ainda

  • (Maio de 1972, o grande líder assumiu as rédeas)
  • (1980, queda de influência)

#Mais tarde

check123
fonte
2
Esse problema parece conter três fases: 1) datas de extração, 2) eventos de extração e 3) correlacionam os dois conjuntos de dados. 1) é certamente factível e posso imaginar heurísticas decentes para 3), mas como você espera resolver 2)?
Raphael
1
@ Rafael Nice reformulação da minha pergunta!
check123
Bem, fazer você tem alguma informação sobre 2), por exemplo, um conjunto restrito de eventos interessantes (ou seja, palavras)? Deseja extrair todos os pares substantivo / verbo, desde que tenham uma data?
Raphael
Deseja extrair prazos também? No seu exemplo, considere (<= May 1972, death of the Minister of State)ou (<= Mid-1980, [the great leader] enjoyed popular support).
Raphael
@ Rafael Desculpe pela resposta (muito) tardia. Em relação a 2) Não. Estou tentando uma abordagem generalizada.
check123

Respostas:

4

Em geral, o problema de identificar datas e outros marcadores temporais no texto é chamado de problema de extrair referências temporais . A pesquisa vinculada o levará a artigos relacionados a isso.

Suresh
fonte
Não sabia que o problema tinha um nome. Vou procurar mais sobre isso e ver se consigo encontrar algo que valha a pena. :)
check123
2

Como você pede uma abordagem algorítmica, eu serei tão teimoso quanto um algoritmo. Sinto muito por tratar essa questão dessa maneira, mas como não parece um problema teórico complexo, vou sintetizar as abordagens possíveis.

Pergunta: você pode me dar uma definição algorítmica de uma data e de um evento específico?

Se você puder: Como sua definição é algorítmica, provavelmente esse é um tipo de gramática formal , e seu problema será ajustá-la para capturar todos os casos que você precisar considerar. (Estou interessado se você puder me dar uma definição exata que não seja uma gramática formal)

Se você não pode: pelo menos, pode apresentar exemplos. Tudo bem então. A melhor - e única coisa em que consigo pensar - é nos algoritmos de aprendizado de máquina, que você precisará treinar para reconhecer suas datas e seus eventos. (Usando um corpus de frases anotadas à mão) No entanto, isso é bastante exagerado em comparação com alguns grandes regexp feitos à mão que provavelmente farão o trabalho. Se você realmente quer fazê-lo, acho que o mais eficiente será esse tipo de regexp dado como parâmetro para o algoritmo de aprendizado, mas é melhor perguntar aos especialistas em aprendizado de máquina.

Boa sorte com isso, é muito mais fácil falar sobre isso (nos dois casos).

jmad
fonte
1
Dito isto, acho que a combinação de datas e eventos definitivamente precisará de alguns modelos estocásticos.
Raphael
Datas na maioria dos formatos que posso capturar usando o regexp. Com alguma lógica de programação, posso extrair as frases em torno das datas. O problema, então, é que eu preciso de um modelo ou de uma distribuição de probabilidade que, quando um padrão de sentença específico, Ex .: O gato comeu o mouse em 25 de agosto. [<artigo> <substantivo> <verbo> <artigo> <substantivo> <preposição> <data>], aparece então um (sub) conjunto do padrão, O gato comeu o mouse (no nosso caso), correlaciona-se com a data y (25 de agosto) com probabilidade z.
check123
@jmad Se você não se importa, pode ajustar a formatação da sua postagem? Usar o estilo de citação para uma não-citação (ou uma auto-citação?) É bastante confuso.
211 uli