Desconsiderando possíveis restrições computacionais, existem aplicações gerais em que a lematização seria uma etapa contraproducente ao analisar dados de texto?
Por exemplo, a lematização seria algo que não é feito ao criar um modelo com reconhecimento de contexto?
Para referência, lematização por dictinory.com é o ato de agrupar as formas flexionadas de (uma palavra) para análise como um único item.
Por exemplo, a palavra 'cozinhar' é o lema da palavra 'cozinhar'. O ato de lematizar é, por exemplo, substituir a palavra cozinhar por cozinhar depois que você tiver simbolizado seus dados de texto. Além disso, a palavra 'pior' tem 'ruim' como lema e, como no exemplo anterior, a substituição da palavra 'pior' por 'ruim' é a ação da lematização.
nlp
data-cleaning
Zer0k
fonte
fonte
Respostas:
Tarefas da PNL que seriam prejudicadas pela lematização:
1) Classificação tensa
A sequência de caracteres no final dos verbos pode ajudar nessa tarefa. Os verbos cozinhados e cozinheiros diferem nos últimos caracteres ed e s, respectivamente .
Com a lematização, essas informações são perdidas. Ambos os verbos tornam-se cozinheiro , fazendo com que ambas as frases pareçam (neste caso) no tempo presente.
2) Identificação do autor
Dado
classifique se um documento foi escrito pelo autor ou .s ∈ S uma b
Uma maneira de conseguir isso é observando o histograma de palavras presentes ems e compará-lo com documentos de P e Q e selecione o mais semelhante.
Isso funciona porque diferentes autores usam determinadas palavras com diferentes frequências. No entanto, ao usar a lematização, você distorce essas frequências, prejudicando o desempenho do seu modelo.
fonte