Eu gostaria de comparar a diferença entre a mesma palavra mencionada em diferentes fontes. Ou seja, como os autores diferem no uso de palavras mal definidas, como "democracia".
Um breve plano foi
- Pegue os livros que mencionam o termo "democracia" como texto simples
- Em cada livro, substitua
democracy
pordemocracy_%AuthorName%
- Treine um
word2vec
modelo nesses livros - Calcular a distância entre
democracy_AuthorA
,democracy_AuthorB
e outras menções remarcadas de "democracia"
Portanto, a "democracia" de cada autor obtém seu próprio vetor, que é usado para comparação.
Mas parece que word2vec
requer muito mais do que vários livros (cada palavra com novo nome ocorre apenas em um subconjunto de livros) para treinar vetores confiáveis. A página oficial recomenda conjuntos de dados, incluindo bilhões de palavras.
Eu só queria perguntar qual o tamanho do subconjunto dos livros de um autor para fazer essa inferência word2vec
ou ferramentas alternativas, se disponíveis?
text-mining
word-embeddings
Anton Tarasenko
fonte
fonte
window
conjuntos de parâmetros quantas palavras no contexto são usados para treinar o modelo para sua palavra wRespostas:
Parece que o doc2vec (ou vetores de parágrafo / contexto) pode ser adequado para esse problema.
Em poucas palavras, além dos vetores de palavras, você adiciona um "vetor de contexto" (no seu caso, uma incorporação ao autor) que é usado para prever as palavras do centro ou do contexto.
Isso significa que você se beneficiaria de todos os dados sobre "democracia", mas também extrairia uma incorporação para esse autor, que combinada deve permitir que você analise o viés de cada autor com dados limitados sobre cada autor.
Você pode usar a implementação do gensim . O documento inclui links para os documentos de origem.
fonte