Classificação de conversas com base no conteúdo

8

Eu gostaria de poder criar um classificador que possa distinguir entre diferentes tipos de conversas (não necessariamente conte nada sobre humor, sinceridade ou resultado, que é um pouco buscado).

Saber, por exemplo, que entre 50 amostras de conversas, 10 envolvem ambas as partes buscando informações sobre um evento futuro, 30 parecem não ter um objetivo e 10 envolvem uma parte buscando informações de outra sobre um evento passado (realmente o algoritmo classificaria como tipos I, II ou III, sem levar em consideração as circunstâncias reais).

Em outras palavras, a ordem dos palestrantes importaria junto com o conteúdo, talvez ajudado pela propagação do algoritmo com determinadas palavras-chave.

Existe um sistema de classificação que possa executar essa tarefa com um grau de precisão bastante alto?

jonsca
fonte
1
para esclarecer, são dados de texto ou dados de áudio?
tdc 17/02/12
1
@tdc Dados de texto, desculpe
jonsca

Respostas:

4

É assim que eu abordaria isso. Você realmente precisa verificar se um texto está na classe I ou III (caso contrário, seria classe II).

  • Primeiro, defina um conjunto de palavras para as classes I e III. Você pode fazer isso manualmente
  • Para cada texto, calcule o tf-idf para as palavras nessas duas classes e some-o (obtenha duas somas).
  • Se algumas dessas duas somas estiverem acima de um limite predefinido, elas pertencerão a essa classe.

Se você tiver um conjunto de dados de aprendizado grande o suficiente, poderá descobrir facilmente quais são os dois grupos de palavras, bem como os dois limites para eles.

vonPetrushev
fonte
Eu só estava indo para verificar tf-idf de ler sua pergunta. Parece promissor.
jonsca