Atualmente, estou trabalhando com um conjunto de dados com uma ampla variedade de comprimentos de documentos - de uma única palavra a uma página inteira de texto. Além disso, a estrutura gramatical e o uso da pontuação variam muito de um documento para outro. O objetivo é classificar esses documentos em uma das cerca de 10 a 15 categorias. Atualmente, estou usando regressão de cume e regressão logística para a tarefa e CV para os valores alfa de cume. Os vetores de recursos são ngrams tf-idf.
Recentemente, notei que documentos mais longos têm muito menos probabilidade de serem categorizados. Por que esse pode ser o caso e como se "normaliza" para esse tipo de variação? Como uma pergunta mais geral, como se costuma lidar com diversos conjuntos de dados? Os documentos devem ser agrupados com base em métricas como comprimento do documento, uso de pontuação, rigor gramatical etc. e depois alimentados por diferentes classificadores?
fonte
Respostas:
Não tenho certeza de como você está aplicando uma estrutura de regressão para classificação de documentos. A maneira como abordaria o problema é aplicar uma abordagem de classificação discriminativa padrão, como o SVM.
Em uma abordagem de classificação discriminativa, a noção de similaridade ou distância inversa entre os pontos de dados (documentos neste caso) é essencial. Felizmente para documentos, existe uma maneira padrão de definir similaridade pareada. Essa é a medida padrão de similaridade de cosseno que utiliza a normalização do comprimento do documento para levar em consideração diferentes comprimentos.
Assim, na prática, na semelhança de cosseno, você trabalharia com pesos de termos relativos normalizados por comprimentos de documentos e, portanto, a diversidade de comprimentos de documentos não deve ser uma questão importante no cálculo de similaridade.
Também é preciso ter cuidado ao aplicar o IDF em pesos a termo. Se o número de documentos não for significativamente grande, a medida idf pode ser estatisticamente imprecisa, adicionando ruído ao termo pesos. Também é uma prática padrão ignorar palavras irrelevantes e pontuações.
fonte