Eu estava lendo:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Mas não consigo entender exatamente por que a fórmula foi construída do jeito que é.
O que eu entendo:
A FDN deve, em algum nível, medir a frequência com que um termo S aparece em cada um dos documentos, diminuindo em valor à medida que o termo aparece com mais frequência.
Nessa perspectiva
Além disso, a frequência do termo pode ser corretamente descrita como
Então a medida
é, de alguma forma, proporcional à frequência com que um termo aparece em um determinado documento e a quão exclusivo esse termo é sobre o conjunto de documentos.
O que eu não entendo
Mas a fórmula dada a descreve como
Desejo entender a necessidade dos logaritmos descritos na definição. Tipo, por que eles estão lá? Que aspecto eles enfatizam?
\log
, constantemente os esqueço); +1 para ambos. Eu vi o artigo de Robertson e pensei em adicioná-lo; é uma leitura muito boa, vou adicioná-la no corpo principal.number of occurrences for all strings in document D
. Por que queremos a contagem da palavra mais comum em vez da contagem de todas as palavras?