Diferença entre tf-idf e tf com Random Forests

8

Estou trabalhando em um problema de classificação de texto usando a Floresta aleatória como classificadores e uma abordagem de palavras-chave. Estou usando a implementação básica do Random Forests (o presente no scikit), que cria uma condição binária em uma única variável em cada divisão. Diante disso, existe uma diferença entre o uso de recursos simples de tf (termo frequência). onde cada palavra tem um peso associado que representa o número de ocorrências no documento ou tf-idf (frequência do termo * frequência inversa do documento), onde o termo frequência também é multiplicado por um valor que representa a razão entre o número total de documentos e o número de documentos que contêm a palavra)?

Na minha opinião, não deve haver nenhuma diferença entre essas duas abordagens, porque a única diferença é um fator de escala em cada recurso, mas como a divisão é feita no nível de recursos únicos, isso não deve fazer diferença.

Estou certo no meu raciocínio?

papafe
fonte
Por que não testar as duas abordagens em um pequeno conjunto de amostras e ver se há alguma diferença?
Charlie Greenbacker

Respostas:

7

Árvores de decisão (e, portanto, florestas aleatórias) são insensíveis a transformações monótonas de recursos de entrada.

Como multiplicar pelo mesmo fator é uma transformação monótona, eu diria que, para florestas aleatórias, de fato não há diferença.

No entanto, você pode considerar o uso de outros classificadores que não possuem essa propriedade, portanto, ainda pode fazer sentido usar todo o TF * IDF.

Alexey Grigorev
fonte
1
Eu estava apenas tentando descobrir se meu raciocínio estava correto, por isso continuarei usando as Florestas Aleatórias, obrigado por sua ajuda!
papafe 23/09/14