Lidando com diversos dados de texto

Atualmente, estou trabalhando com um conjunto de dados com uma ampla variedade de comprimentos de documentos - de uma única palavra a uma página inteira de texto. Além disso, a estrutura gramatical e o uso da pontuação variam muito de um documento para outro. O objetivo é classificar esses documentos em uma das cerca de 10 a 15 categorias. Atualmente, estou usando regressão de cume e regressão logística para a tarefa e CV para os valores alfa de cume. Os vetores de recursos são ngrams tf-idf.

Recentemente, notei que documentos mais longos têm muito menos probabilidade de serem categorizados. Por que esse pode ser o caso e como se "normaliza" para esse tipo de variação? Como uma pergunta mais geral, como se costuma lidar com diversos conjuntos de dados? Os documentos devem ser agrupados com base em métricas como comprimento do documento, uso de pontuação, rigor gramatical etc. e depois alimentados por diferentes classificadores?

classification nlp Madison May
fonte

Você pode esclarecer sua dúvida definindo os objetivos dessa análise? Qual é a natureza das 10 a 15 categorias? Essas categorias são definidas a priori ou são clusters sugeridos pelos próprios dados? Parece que sua pergunta está centrada na escolha de um bom processo de codificação / transformação de dados, e não em métodos de análise de dados (por exemplo, análise discriminante, classificação).

MrMeritology

Se seus documentos variam de palavras únicas a página inteira de texto, e você deseja ter qualquer combinação de comprimentos / tipos de documentos em qualquer categoria, será necessário usar um método de codificação muito simples, como Bag of Words. Qualquer coisa mais complicada (por exemplo, estilo gramatical) não será dimensionada nesse intervalo.

MrMeritology

Respostas:

Não tenho certeza de como você está aplicando uma estrutura de regressão para classificação de documentos. A maneira como abordaria o problema é aplicar uma abordagem de classificação discriminativa padrão, como o SVM.

Em uma abordagem de classificação discriminativa, a noção de similaridade ou distância inversa entre os pontos de dados (documentos neste caso) é essencial. Felizmente para documentos, existe uma maneira padrão de definir similaridade pareada. Essa é a medida padrão de similaridade de cosseno que utiliza a normalização do comprimento do documento para levar em consideração diferentes comprimentos.

Assim, na prática, na semelhança de cosseno, você trabalharia com pesos de termos relativos normalizados por comprimentos de documentos e, portanto, a diversidade de comprimentos de documentos não deve ser uma questão importante no cálculo de similaridade.

Também é preciso ter cuidado ao aplicar o IDF em pesos a termo. Se o número de documentos não for significativamente grande, a medida idf pode ser estatisticamente imprecisa, adicionando ruído ao termo pesos. Também é uma prática padrão ignorar palavras irrelevantes e pontuações.

Debasis
fonte