Por que skip-gram é melhor para palavras pouco frequentes do que CBOW?

Respostas:

14

No CBOW, os vetores das palavras de contexto são calculados em média antes de prever a palavra central. No skip-gram, não há média de vetores de incorporação. Parece que o modelo pode aprender melhores representações para as palavras raras quando seus vetores não são calculados com a média das outras palavras de contexto no processo de fazer as previsões.

Aaron
fonte
13

Aqui está o meu entendimento simplista e ingênuo da diferença:

Como sabemos, o CBOW está aprendendo a prever a palavra pelo contexto. Ou maximize a probabilidade da palavra-alvo observando o contexto. E isso é um problema para palavras raras. Por exemplo, dado o contexto do yesterday was really [...] daymodelo CBOW, você poderá dizer que provavelmente a palavra é beautifulor nice. Palavras como delightfulreceberão muito menos atenção do modelo, pois ele foi projetado para prever a palavra mais provável. Palavras raras serão suavizadas em muitos exemplos com palavras mais frequentes.

Por outro lado, o skip-gram é projetado para prever o contexto. Dada a palavra, delightfulela deve entendê-la e nos dizer que existe uma enorme probabilidade, o contexto é yesterday was really [...] dayou algum outro contexto relevante. Com o skip-gram, a palavra delightfulnão tentará competir com a palavra, beautifulmas os delightful+contextpares serão tratados como novas observações. Por esse motivo , o skip-gram precisará de mais dados para aprender a entender palavras raras.

Serhiy
fonte
0

Acabei de me deparar com um artigo que mostra o contrário: que CBOW é melhor para palavras pouco frequentes do que ignorar https://arxiv.org/abs/1609.08293 . Gostaria de saber quais são as fontes da reivindicação declarada em https://code.google.com/p/word2vec/ .

xsway
fonte
Acredito que Mikolov escreveu esse kit de ferramentas. Curiosamente, em seu artigo: papers.nips.cc/paper/…, ele afirma "Mostramos que a subamostragem de palavras frequentes durante o treinamento resulta em uma aceleração significativa (cerca de 2x - 10x) e melhora a precisão das representações das palavras menos frequentes. " portanto, pule a grama com a extensão de subamostragem.
Kevin