Idêntico significado, que irá produzir resultados idênticos para uma similaridade entre um Classificação do vetor u e um conjunto de vectores V .
Eu tenho um modelo de espaço vetorial que tem como medida a distância (distância euclidiana, semelhança de cosseno) e a técnica de normalização (nenhuma, l1, l2). Pelo meu entendimento, os resultados das configurações [cosseno, nenhum] devem ser idênticos ou pelo menos realmente muito semelhantes a [euclidiano, l2], mas não são.
Na verdade, há uma boa chance de o sistema ainda estar com erros - ou tenho algo crítico errado sobre vetores?
edit: esqueci de mencionar que os vetores são baseados na contagem de palavras de documentos em um corpus. Dado um documento de consulta (que também transformamos em um vetor de contagem de palavras), desejo encontrar o documento do meu corpus que seja o mais semelhante a ele.
Apenas calcular sua distância euclidiana é uma medida direta, mas no tipo de tarefa em que trabalho, a similaridade de cosseno é frequentemente preferida como um indicador de similaridade, porque vetores que apenas diferem em comprimento ainda são considerados iguais. O documento com a menor semelhança distância / cosseno é considerado o mais semelhante.
Respostas:
Para vetores normalizados , temos o quadrado Euclidiano a distância é proporcional à distância do cosseno , Ou seja, mesmo que você normalizasse seus dados e seu algoritmo fosse invariável ao dimensionamento das distâncias, você ainda esperaria diferenças por causa do quadrado.x , y | | x | | 2 = | | y | | 2 = 1 , | | x - y | | 2 2ℓ2 x , y
fonte
A similaridade padrão do cosseno é definida da seguinte forma em um espaço euclidiano, assumindo vetores de coluna e : Isso reduz ao produto interno padrão se seus vetores forem normalizados para a norma da unidade (em l2). Na mineração de texto, esse tipo de normalização não é inédito, mas eu não consideraria esse o padrão.v cos ( u , v ) = ⟨ u , v ⟩você v
fonte