Compreendendo o uso de logaritmos no logaritmo TF-IDF

Eu estava lendo:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Mas não consigo entender exatamente por que a fórmula foi construída do jeito que é.

O que eu entendo:

A FDN deve, em algum nível, medir a frequência com que um termo S aparece em cada um dos documentos, diminuindo em valor à medida que o termo aparece com mais frequência.

Nessa perspectiva

i D F (S) = \frac{# of Documents}{# of Documents containing S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

Além disso, a frequência do termo pode ser corretamente descrita como

t f (S, D) = \frac{# of Occurrences of S in document D}{# maximum number of occurrences for any string Q in document D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Então a medida

i D F (S) \times t f (S, D)

$iDF(S) \times tf(S,D)$

é, de alguma forma, proporcional à frequência com que um termo aparece em um determinado documento e a quão exclusivo esse termo é sobre o conjunto de documentos.

O que eu não entendo

Mas a fórmula dada a descreve como

(\log (i D F (S))) (\frac{1}{2} + \log (\frac{1}{2} t f (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Desejo entender a necessidade dos logaritmos descritos na definição. Tipo, por que eles estão lá? Que aspecto eles enfatizam?

machine-learning clustering mathematical-statistics text-mining natural-language ervilhas
fonte

Respostas:

O aspecto enfatizado é que a relevância de um termo ou documento não aumenta proporcionalmente à frequência do termo (ou documento). O uso de uma função sub-linear, portanto, ajuda a despejar esse efeito. Nesse sentido, a influência de valores muito grandes ou muito pequenos (por exemplo, palavras muito raras) também é amortizada. Finalmente, como a maioria das pessoas percebe intuitivamente que as funções de pontuação são um tanto aditivas usando logaritmos, a probabilidade de termos independentes diferentes de parecerem mais com . $P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Como o artigo da Wikipedia que você vincula observa, a justificativa do TF-IDF ainda não está bem estabelecida; é / era uma heurística que queremos tornar rigorosa, não um conceito rigoroso que queremos transferir para o mundo real. Como mencionado por Anony-Mousse, como uma leitura muito boa sobre o assunto, é a Frequência de documentos inversos no entendimento de Robertson : sobre argumentos teóricos para a IDF . Ele fornece uma ampla visão geral de toda a estrutura e tenta fundamentar a metodologia TF-IDF na ponderação da relevância dos termos de pesquisa.

usεr11852
fonte

Alguma justificativa do TF-IDF pode ser encontrada em "Um estudo formal de heurísticas de recuperação de informações"., 2004 por Fang, Hui et al ( pdf ).

Alexey Grigorev

Penso que esta é a melhor referência para as justificativas do TF-IDF: Robertson, S. (2004). "Compreendendo a frequência inversa de documentos: sobre argumentos teóricos para IDF". Journal of Documentation 60 (5): 503-520.

Quit - Anony-Mousse

Obrigado por seus comentários, senhores (e um agradecimento especial a Alexey pela correção \log, constantemente os esqueço); +1 para ambos. Eu vi o artigo de Robertson e pensei em adicioná-lo; é uma leitura muito boa, vou adicioná-la no corpo principal.

usεr11852

@ Anony-Mousse (pdf)

Walrus the Cat

Quero saber por que "número máximo de ocorrências para qualquer seqüência Q no documento D" é usado em vez de number of occurrences for all strings in document D. Por que queremos a contagem da palavra mais comum em vez da contagem de todas as palavras?

Xeoncross