Compreendendo o uso de logaritmos no logaritmo TF-IDF

10

Eu estava lendo:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Mas não consigo entender exatamente por que a fórmula foi construída do jeito que é.

O que eu entendo:

A FDN deve, em algum nível, medir a frequência com que um termo S aparece em cada um dos documentos, diminuindo em valor à medida que o termo aparece com mais frequência.

Nessa perspectiva

iDF(S)=# of Documents# of Documents containing S

Além disso, a frequência do termo pode ser corretamente descrita como

tf(S,D)=# of Occurrences of S in document D# maximum number of occurrences for any string Q in document D

Então a medida

iDF(S)×tf(S,D)

é, de alguma forma, proporcional à frequência com que um termo aparece em um determinado documento e a quão exclusivo esse termo é sobre o conjunto de documentos.

O que eu não entendo

Mas a fórmula dada a descreve como

(log(iDF(S)))(12+log(12tf(S,D)))

Desejo entender a necessidade dos logaritmos descritos na definição. Tipo, por que eles estão lá? Que aspecto eles enfatizam?

ervilhas
fonte

Respostas:

9

O aspecto enfatizado é que a relevância de um termo ou documento não aumenta proporcionalmente à frequência do termo (ou documento). O uso de uma função sub-linear, portanto, ajuda a despejar esse efeito. Nesse sentido, a influência de valores muito grandes ou muito pequenos (por exemplo, palavras muito raras) também é amortizada. Finalmente, como a maioria das pessoas percebe intuitivamente que as funções de pontuação são um tanto aditivas usando logaritmos, a probabilidade de termos independentes diferentes de parecerem mais com .P(A,B)=P(A)P(B)log(P(A,B))=log(P(A))+log(P(B))

Como o artigo da Wikipedia que você vincula observa, a justificativa do TF-IDF ainda não está bem estabelecida; é / era uma heurística que queremos tornar rigorosa, não um conceito rigoroso que queremos transferir para o mundo real. Como mencionado por Anony-Mousse, como uma leitura muito boa sobre o assunto, é a Frequência de documentos inversos no entendimento de Robertson : sobre argumentos teóricos para a IDF . Ele fornece uma ampla visão geral de toda a estrutura e tenta fundamentar a metodologia TF-IDF na ponderação da relevância dos termos de pesquisa.

usεr11852
fonte
4
Alguma justificativa do TF-IDF pode ser encontrada em "Um estudo formal de heurísticas de recuperação de informações"., 2004 por Fang, Hui et al ( pdf ).
Alexey Grigorev
3
Penso que esta é a melhor referência para as justificativas do TF-IDF: Robertson, S. (2004). "Compreendendo a frequência inversa de documentos: sobre argumentos teóricos para IDF". Journal of Documentation 60 (5): 503-520.
Quit - Anony-Mousse
Obrigado por seus comentários, senhores (e um agradecimento especial a Alexey pela correção \log, constantemente os esqueço); +1 para ambos. Eu vi o artigo de Robertson e pensei em adicioná-lo; é uma leitura muito boa, vou adicioná-la no corpo principal.
usεr11852
@ Anony-Mousse (pdf)
Walrus the Cat
Quero saber por que "número máximo de ocorrências para qualquer seqüência Q no documento D" é usado em vez de number of occurrences for all strings in document D. Por que queremos a contagem da palavra mais comum em vez da contagem de todas as palavras?
Xeoncross