Estou usando a indexação semântica latente para encontrar semelhanças entre documentos ( obrigado, JMS! )
Após a redução da dimensão, tentei o agrupamento k-means para agrupar os documentos em clusters, o que funciona muito bem. Mas eu gostaria de ir um pouco mais longe e visualizar os documentos como um conjunto de nós, em que a distância entre dois nós é inversamente proporcional à sua semelhança (nós altamente semelhantes são próximos).
Parece-me que não posso reduzir com precisão uma matriz de similaridade a um gráfico bidimensional, pois meus dados são> 2 dimensões. Então, minha primeira pergunta: existe uma maneira padrão de fazer isso?
Eu poderia apenas reduzir meus dados para duas dimensões e depois plotá-los como os eixos X e Y, e isso seria suficiente para um grupo de ~ 100-200 documentos? Se essa é a solução, é melhor reduzir meus dados para duas dimensões desde o início ou existe alguma maneira de escolher as duas "melhores" dimensões dos meus dados multidimensionais?
Estou usando Python e a biblioteca gensim, se isso faz alguma diferença.
Respostas:
Há muito código disponível para o MDS (e eu ficaria surpreso se o scipy não tiver uma versão dele). De qualquer forma, desde que você tenha acesso a alguma rotina SVD em python, você está definido.
fonte
Existe um software chamado ggobi que pode ajudá-lo. Permite explorar pseudoespaços multidimensionais. É principalmente para exploração de dados, mas sua interface é extremamente amigável e 'funciona'!
Você só precisa de um formato CSV (no RI, geralmente use write.csv com os parâmetros padrão) ou um arquivo XML (esse formato permite mais controle; eu costumo salvar minha tabela em CSV, depois exportá-la para XML com ggobi e editá-la manualmente por exemplo, para alterar a ordem de alguns fatores).
fonte