Eu tenho trabalhado em dados treinados para o algoritmo Word2vec. Como precisamos que as palavras permaneçam como originais, não as tornamos minúsculas na fase de pré-processamento. Assim, existem palavras com diferentes variações (por exemplo, "Terra" e "Terra").
A única maneira de pensar é levar a média de vetores para "Terra" e "Terra" para criar um único vetor para representar a palavra. (Como as dimensões do vetor de recurso são semelhantes)
Este é um método "ok"? Caso contrário, qual seria uma boa maneira de lidar com esse problema?
Nota: A redução de todas as palavras no pré-processamento não é uma opção no momento.
Editar: as informações sobre se as dimensões dos recursos são ou não verdadeiramente lineares também seriam úteis.
Edição 2: Combinando as duas respostas patapouf_ai
e yazhi
os melhores resultados. Como eles são combinados? A média ponderada melhorou os resultados, mas a colocação de frequências de palavras por meio de uma função sigmóide em escala deu os melhores resultados, porque o uso de frequências de palavras de maneira linear lhes dá mais importância do que elas suportam.
As palavras "Terra" e "terra" podem ter o mesmo significado, mas, de acordo com o algoritmo word2vec, derivam as informações semânticas da posição das palavras.
Assim, comumente, "Terra" aparecerá com mais frequência no início da sentença como sujeito e "terra" aparecerá principalmente na forma de objeto no final. Portanto, as palavras adjacentes mais próximas podem diferir, mas no geral as duas frases podem conter palavras como "poluição, clima, água, países".
Em conclusão, acho que com um tamanho de janela maior, parece preservar a mesma informação semântica com pequenas mudanças, onde a "Terra" terá algumas informações sobre o assunto e a "terra" terá informações sobre os objetos. Portanto, a média não afetará muito e parece ser um caso possível. Mas com um tamanho de janela menor, há uma alta probabilidade de que ele possa ter significados diferentes.
fonte