Uma abordagem tradicional da construção de recursos para mineração de texto é a abordagem por palavras, e pode ser aprimorada usando tf-idf para configurar o vetor de recursos que caracteriza um determinado documento de texto. No momento, estou tentando usar o modelo de linguagem bi-grama ou (N-grama) para criar vetor de recursos, mas não sei exatamente como fazer isso? Podemos apenas seguir a abordagem do saco de palavras, ou seja, calcular a contagem de frequências em termos de bi-grama em vez de palavras e aprimorá-la usando o esquema de ponderação tf-idf?
10
O número de bigrams pode ser reduzido selecionando apenas aqueles com informações mútuas positivas.
Fizemos isso para gerar um pacote de representação de bigramas na faixa INEX XML Mining, http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp .
O que não tentamos é usar as informações mútuas entre os termos na ponderação dos bi-gramas. Consulte https://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf e http: //www.nltk. org / howto / collocations.html para uma melhor explicação de informações mútuas pontuais para bigrams.
Consulte /programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python e /programming/22118350/python-sentiment-analysis -utilizando informações mútuas ponto-a-ponto para outras questões relacionadas a isso.
fonte
O uso de projeções aleatórias para reduzir a dimensionalidade dos dados pode ser útil para reduzir o espaço necessário para armazenar os recursos, https://en.wikipedia.org/wiki/Random_projection . Ele é dimensionado muito bem e todos os exemplos podem ser projetados em um espaço dimensional inferior, independentemente e sem métodos de otimização direta, como PCA, SVD, Sammon Maps, NMF, etc.
fonte