Perguntas com a marcação «word-embeddings»

Embedding de palavras é o nome coletivo para um conjunto de modelagem de linguagem e técnicas de aprendizagem de recursos em PNL, onde as palavras são mapeadas para vetores de números reais em um espaço dimensional baixo, em relação ao tamanho do vocabulário.

29
R: Floresta aleatória lançando NaN / Inf em erro de "chamada de função externa", apesar de nenhum NaN no conjunto de dados [fechado]

Estou usando o sinal de intercalação para executar uma floresta aleatória validada cruzada em um conjunto de dados. A variável Y é um fator. Não há NaN, Inf ou NA no meu conjunto de dados. No entanto, ao executar a floresta aleatória, recebo Error in randomForest.default(m, y, ...) : NA/NaN/Inf...

20
O desempenho de última geração relatado do uso de vetores de parágrafo para análise de sentimentos foi replicado?

Fiquei impressionado com os resultados no artigo da ICML 2014 " Representações distribuídas de frases e documentos " de Le e Mikolov. A técnica que eles descrevem, denominada "vetores de parágrafos", aprende representações não supervisionadas de parágrafos / documentos arbitrariamente longos, com...

11
Quais são os prós e os contras da aplicação de informações mútuas pontuais em uma matriz de co-ocorrência de palavras antes do SVD?

Uma maneira de gerar incorporação de palavras é a seguinte ( espelho ): Obtenha um corpora, por exemplo: "Gosto de voar. Gosto de PNL. Gosto de aprendizado profundo". Crie a palavra matriz de coocorrência a partir dela: Execute o SVD no XXX e mantenha as primeiras kkk colunas de U. você1...

8
Qual é a relação da função objetivo de amostragem negativa (NS) com a função objetivo original no word2vec?

Eu estava lendo o modelo word2vec padrão / famoso e de acordo com as notas do standord para cs224n, a função objetivo muda de: Joriginal=−∑j=0,j≠m2mu⊤c−m+jvc+2mlog(∑k=1|V|exp(u⊤kvc))Joriginal=−∑j=0,j≠m2muc−m+j⊤vc+2mlog(∑k=1|V|exp(uk⊤vc))J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c +...