Eu tenho lido sobre essas duas técnicas para encontrar a raiz da palavra, mas como preferimos uma à outra?
"Lematização" é sempre melhor que "Stemming"?
fonte
Eu tenho lido sobre essas duas técnicas para encontrar a raiz da palavra, mas como preferimos uma à outra?
"Lematização" é sempre melhor que "Stemming"?
Eu diria que a lematização é geralmente a maneira preferida de reduzir palavras relacionadas a uma base comum.
Esta pergunta do Quora é um bom recurso sobre o assunto: é aconselhável escolher a lematização em vez da resultante da PNL? A resposta principal cita outro bom recurso que motiva por que a lematização geralmente é melhor, Stemming and lematization , da Stanford NLP:
Por que a lematização é melhor
O stemming geralmente se refere a um processo heurístico bruto que corta o final das palavras na esperança de atingir esse objetivo corretamente na maioria das vezes, e geralmente inclui a remoção de afixos derivativos.
A lematização geralmente se refere a fazer as coisas corretamente com o uso de uma análise de vocabulário e morfologia das palavras, normalmente com o objetivo de remover apenas terminações flexionadas e retornar a forma básica ou de dicionário de uma palavra, conhecida como lema.
Mas isso geralmente é, nem sempre é melhor. O tronco ainda possui algumas vantagens e dependerá do caso de uso. Alguns motivos pelos quais você usaria a lematização poderiam ser:
Algumas possíveis exceções quando derivadas podem ser melhores