Em que circunstância a lematização não é uma etapa aconselhável ao trabalhar com dados de texto?

7

Desconsiderando possíveis restrições computacionais, existem aplicações gerais em que a lematização seria uma etapa contraproducente ao analisar dados de texto?

Por exemplo, a lematização seria algo que não é feito ao criar um modelo com reconhecimento de contexto?

Para referência, lematização por dictinory.com é o ato de agrupar as formas flexionadas de (uma palavra) para análise como um único item.

Por exemplo, a palavra 'cozinhar' é o lema da palavra 'cozinhar'. O ato de lematizar é, por exemplo, substituir a palavra cozinhar por cozinhar depois que você tiver simbolizado seus dados de texto. Além disso, a palavra 'pior' tem 'ruim' como lema e, como no exemplo anterior, a substituição da palavra 'pior' por 'ruim' é a ação da lematização.

Zer0k
fonte
1
Eu acho que essa pergunta seria melhorada com uma breve descrição do que é lematização
#
1
@ kbrose Tudo bem, posso adicionar uma breve descrição. Obrigado pela sugestão.
Zer0k
1
Obrigado! Pergunta interessante. Existem coisas simples, como parte da marcação de fala, que definitivamente seriam prejudicadas pela lematização. Curioso para ver se há mais
kbrose

Respostas:

1

Tarefas da PNL que seriam prejudicadas pela lematização:

1) Classificação tensa

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

A sequência de caracteres no final dos verbos pode ajudar nessa tarefa. Os verbos cozinhados e cozinheiros diferem nos últimos caracteres ed e s, respectivamente .

Com a lematização, essas informações são perdidas. Ambos os verbos tornam-se cozinheiro , fazendo com que ambas as frases pareçam (neste caso) no tempo presente.

2) Identificação do autor

Dado

  • um conjunto de documentos escritos pelo autor ,Puma
  • um conjunto de documentos escritos pelo autor ,Qb
  • um conjunto de documentos escritos pelo autor ou ,Sumab

classifique se um documento foi escrito pelo autor ou .sSumab

Uma maneira de conseguir isso é observando o histograma de palavras presentes em s e compará-lo com documentos de P e Q e selecione o mais semelhante.

Isso funciona porque diferentes autores usam determinadas palavras com diferentes frequências. No entanto, ao usar a lematização, você distorce essas frequências, prejudicando o desempenho do seu modelo.

Bruno Lubascher
fonte
Então, basicamente, quando a estrutura e o estilo da sentença / documento são relevantes, a lematização é algo prejudicial. Eu entendi isso corretamente?
Zer0k
1
@ Zer0k, correto. Quando os recursos importantes são granulares nas palavras, você não deseja a lematização. Se você tiver tarefas de nível superior, por exemplo, análise de sentimentos, não precisará dessa granularidade. "Este é o pior restaurante" ou "Este é o restaurante ruim ", ambos lhe darão sentimentos negativos .
Bruno Lubascher 10/08
1
Receio não concordar com o exemplo da identificação do autor. Especialmente com textos curtos, a lematização ajuda muito. Caso contrário, os vetores de recursos são muito escassos.
Cláudio
@ Claude, você pode expandir um pouco sobre isso? O que você define como texto breve?
Zer0k
1
@ Zer0k 200 tokens ou até 1000 ou mais.
Cláudio