Perguntas com a marcação «word-embeddings»

Embedding de palavras é o nome coletivo para um conjunto de modelagem de linguagem e técnicas de aprendizagem de recursos em PNL, onde as palavras são mapeadas para vetores de números reais em um espaço dimensional baixo, em relação ao tamanho do vocabulário.

22
Qual é a melhor entrada para o Word2Vec?

Isso é mais como uma pergunta geral da PNL. Qual é a entrada apropriada para treinar uma incorporação de palavras, ou seja, Word2Vec? Todas as frases pertencentes a um artigo devem ser um documento separado em um corpus? Ou cada artigo deve ser um documento no referido corpus? Este é apenas um...

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

11
Existem bons modelos de linguagem prontos para uso em python?

Estou prototipando um aplicativo e preciso de um modelo de linguagem para calcular a perplexidade em algumas frases geradas. Existe algum modelo de linguagem treinado em python que eu possa usar facilmente? Algo simples como model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
Quantos dados de treinamento o word2vec precisa?

Eu gostaria de comparar a diferença entre a mesma palavra mencionada em diferentes fontes. Ou seja, como os autores diferem no uso de palavras mal definidas, como "democracia". Um breve plano foi Pegue os livros que mencionam o termo "democracia" como texto simples Em cada livro, substitua...

8
Gere previsões ortogonais (não correlacionadas) para uma determinada variável

Eu tenho uma Xmatriz, uma yvariável e outra variável ORTHO_VAR. Preciso prever a yvariável usando X, no entanto, as previsões desse modelo precisam ser ortogonais e, ao ORTHO_VARmesmo tempo, estar o mais correlacionadas ypossível. Eu preferiria que as previsões fossem geradas com um método não...