Finalidade da normalização L2 para rede tripla

Respostas:

7

A distância euclidiana ao quadrado entre vetores normalizados é proporcional à semelhança de cosseno (ref: wikipedia ), portanto, a vantagem de usar a normalização é mais ou menos a vantagem da semelhança de cosseno sobre Distância euclidiana. Como mencionado na resposta de Andy Jones, sem normalização, escalar a margem por um fator apenas escalaria a incorporação correspondentemente.

AABB2=AA2+BB22ABAB=22ABAB

Outra propriedade interessante é que, com essa normalização, o valor da distância euclidiana ao quadrado é garantido dentro da faixa , o que nos poupa muito esforço ao escolher um parâmetro de margem adequado .[0,4]α

Por exemplo, em outro artigo referenciado por este artigo, ele usa o chamado modelo de mola, que se baseia na distância euclidiana quadrada (não normalizada), onde uma das dificuldades práticas é determinar uma margem e um ponto de divisão adequados, pois a incorporação muda constantemente conforme o treinamento prossegue.

Se você está procurando implementar a camada de normalização, aqui está um blog sobre as derivações e a implementação no Caffe (parte do blog é em chinês, mas não afeta a leitura).

dontloo
fonte
Por que a distância euclidiana quadrada é limitada dentro de [0, 4] se, neste caso, é igual à distância do cosseno que só pode estar em [-1, 1]?
pir 27/02
@pir se você der uma olhada no lado direito da fórmula, na verdade é 2-2 * cos_sim, que fica entre [0, 4], pois cos_sim está em [-1, 1]
dontloo
1

Eu acho que é porque fornece um local e uma escala preferidos para a incorporação. O local preferido significa que a perda não é mais invariável à conversão, o que é útil quando você está trabalhando com ponto flutuante, enquanto a escala preferida fornece o significado do parâmetro de margem. Sem a restrição da hiperesfera, acho que inflar a margem por um fator de apenas escalaria todos os embeddings por um fator de .cc

Andy Jones
fonte
Isso faz sentido, obrigado. Você sabe como os gradientes dos parâmetros são modificados por essa normalização?
pir 22/02
A abordagem típica do IIRC é simplesmente projetar de volta à hiperesfera no final de cada etapa.
Andy Jones
11
Não, de acordo com esta implementação da tocha, eu estou errado; você apenas deriva e aplica o gradiente da maneira padrão.
Andy Jones