Estou trabalhando em um problema de classificação de texto usando a Floresta aleatória como classificadores e uma abordagem de palavras-chave. Estou usando a implementação básica do Random Forests (o presente no scikit), que cria uma condição binária em uma única variável em cada divisão. Diante disso, existe uma diferença entre o uso de recursos simples de tf (termo frequência). onde cada palavra tem um peso associado que representa o número de ocorrências no documento ou tf-idf (frequência do termo * frequência inversa do documento), onde o termo frequência também é multiplicado por um valor que representa a razão entre o número total de documentos e o número de documentos que contêm a palavra)?
Na minha opinião, não deve haver nenhuma diferença entre essas duas abordagens, porque a única diferença é um fator de escala em cada recurso, mas como a divisão é feita no nível de recursos únicos, isso não deve fazer diferença.
Estou certo no meu raciocínio?
Respostas:
Árvores de decisão (e, portanto, florestas aleatórias) são insensíveis a transformações monótonas de recursos de entrada.
Como multiplicar pelo mesmo fator é uma transformação monótona, eu diria que, para florestas aleatórias, de fato não há diferença.
No entanto, você pode considerar o uso de outros classificadores que não possuem essa propriedade, portanto, ainda pode fazer sentido usar todo o TF * IDF.
fonte