Estou tendo problemas para entender esta frase:
A primeira arquitetura proposta é semelhante ao feedforward NNLM, onde a camada oculta não linear é removida e a camada de projeção é compartilhada por todas as palavras (não apenas pela matriz de projeção); assim, todas as palavras são projetadas na mesma posição (seus vetores são calculados como média).
Qual é a camada de projeção versus a matriz de projeção? O que significa dizer que todas as palavras são projetadas na mesma posição? E por que isso significa que seus vetores são calculados em média?
A sentença é a primeira da seção 3.1 da Estimativa eficiente de representações de palavras no espaço vetorial (Mikolov et al. 2013) .
Como eu estava pesquisando sobre os problemas do CBOW e me deparei com isso, aqui está uma resposta alternativa à sua (primeira) pergunta ("O que é uma camada de projeção versus matriz ?"), Observando o modelo NNLM (Bengio et al., 2003):
Para adicionar, e "apenas para constar": a parte mais interessante é a abordagem de Mikolov para resolver a parte em que na imagem de Bengio você vê a frase "mais computação aqui". Bengio tentou diminuir esse problema fazendo algo que é chamado softmax hierárquico (em vez de apenas usar o softmax) em um artigo posterior (Morin & Bengio 2005). Mas Mikolov, com sua estratégia de subamostragem negativa, deu um passo adiante: ele não calcula a probabilidade logarítmica negativa de todas as palavras "erradas" (ou codificações de Huffman, como Bengio sugeriu em 2005), e apenas calcula uma pequena amostra de casos negativos, que, dados tais cálculos e uma distribuição de probabilidade inteligente, funciona extremamente bem. E a segunda e ainda mais importante contribuição, naturalmente,P( C o n t e x t | wt= i )
fonte