Extraindo emails individuais de um thread de email

7

A maioria dos conjuntos de dados de código aberto está bem formatada, ou seja, cada mensagem de email é separada bem como o conjunto de dados da Enron. Mas, no mundo real, é altamente difícil separar uma mensagem de email principal de um segmento de emails.

Por exemplo, considere a mensagem abaixo.

Hi,

Can you offer me a better discount.

Thanks,
Mr.X
Customer Relations.

---- On Wed, 10 May 2017 04:05:16 -0700 [email protected] wrote ------

Hello Mr.X,

Does the below work out. Do let us know your thoughts.

Thanks,
Mr.Y

Sales Manager.

Agora, a razão pela qual queremos dividir os e-mails é porque queremos fazer uma análise de sentimentos. Quando não conseguirmos dividir o email, os resultados estarão errados.

Eu procurei e encontrei este artigo de pesquisa muito abrangente . Também foi encontrada uma implementação por mail gun chamada mail gun talon . Mas, infelizmente, não funciona bem para certos tipos de padrões.

Por exemplo, quando a segunda mensagem no segmento de email é interrompida como

---------- Forwarded message ---------- 

em vez do acima

---- On Wed, 10 May 2017 04:05:16 -0700 [email protected] wrote ------

Minha pergunta é que muitas pessoas que estão tentando fazer essas coisas definitivamente enfrentariam esses problemas, mas a área continua bastante sombria. Existe alguma implementação bastante sólida do documento ou outra coisa que divida o email muito bem.

Greedy Coder
fonte
este link não é útil para você ???
Abhishek Verma
descreve o problema de uma maneira genérica, mas eu só quero ver se existe algum utilitário / biblioteca pronto para fazer isso. É útil, mas há muito para estudar e implementar.
precisa
11
Você não sabe se já o viu, mas o autor do artigo que você citou disponibilizou em seu site uma implementação de sua metodologia em um software chamado jangada , talvez mexer com ele?
Bogas
@ Bogas: Obrigado. Eu não vi isso antes. Irá dar uma olhada em como funciona.
Codificador ganancioso

Respostas: