Word2Vec vs. Sentença2Vec vs. Doc2Vec

18

Recentemente, deparei com os termos Word2Vec , Sentença2Vec e Doc2Vec e meio que confuso, pois sou novo na semântica de vetores. Alguém por favor pode elaborar as diferenças nesses métodos em palavras simples. Quais são as tarefas mais adequadas para cada método?

Smith
fonte

Respostas:

22

Bem, os nomes são bem diretos e devem fornecer uma idéia clara das representações vetoriais.

O algoritmo Word2Vec cria representação semântica distribuída de palavras. Existem duas abordagens principais para o treinamento, o Distributed Bag of Words e o modelo de pular grama. Um envolve prever as palavras de contexto usando uma palavra central, enquanto o outro envolve prever a palavra usando as palavras de contexto. Você pode ler sobre isso em muitos detalhes no de Mikolov papel .

A mesma idéia pode ser estendida para frases e documentos completos, onde, em vez de aprender representações de recursos para palavras, você aprende para frases ou documentos. No entanto, para ter uma idéia geral de um SentençaParaVec, pense nele como uma média matemática das representações de vetores de palavras de todas as palavras na frase. Você pode obter uma aproximação muito boa calculando a média e sem treinar nenhum SentençaToVec, mas é claro que tem suas limitações.

O Doc2Vec amplia a ideia do SentençaToVec ou, melhor, do Word2Vec, porque as frases também podem ser consideradas documentos. A idéia de treinamento permanece semelhante. Você pode ler o documento Doc2Vec de Mikolov para obter mais detalhes.

Chegando aos aplicativos, isso dependeria da tarefa. Um Word2Vec captura efetivamente relações semânticas entre palavras, portanto, pode ser usado para calcular semelhanças de palavras ou alimentado como recursos para várias tarefas da PNL, como análise de sentimentos etc. não apenas palavras. Por exemplo, se você está tentando descobrir, se duas perguntas de estouro de pilha são duplicadas uma da outra.

Uma simples pesquisa no Google levará você a várias aplicações desses algoritmos.

Himanshu Rai
fonte
Qual é a diferença entre calcular a média de vetores de palavras e usar o doc2vec? O doc2vec representa o ambiente de uma palavra na frase ao criar o vetor (enquanto a palavra2vec não)?
John Strood
1
O Doc2Vec aprende um vetor inicializado aleatoriamente para o documento junto com as palavras (o documento pode ser uma frase). A média manual de vetores de palavras não tem a mesma capacidade porque falha ao aprender com o documento inteiro. Recentemente vetores Paragram têm sido extremamente usar ao trabalhar com similaridade de documentos etc.
Himanshu Rai