Como a semelhança de cosseno muda após uma transformação linear?

9

Existe uma relação matemática entre:

  • o co-seno similaridade sim(A,B) de dois vectores A e B , e
  • o co-seno similaridade sim(MA,MB) de A e B , não-uniformemente dimensionadas através de uma dada matriz de M ? Aqui M é uma matriz diagonal dada com elementos desiguais na diagonal.

Tentei revisar os cálculos, mas não consegui acessar um link simples / interessante (expressão). Gostaria de saber se existe um.


Por exemplo, os ângulos não são preservados na escala não uniforme, mas qual é a relação entre os ângulos originais e os que se seguem à escala não uniforme? O que pode ser dito sobre o vínculo entre um conjunto de vetores S1 e outro conjunto de vetores S2 - em que S2 é obtido pela escala não uniforme de S1?

turdus-merula
fonte
@ whuber, obrigado! Sim, M é uma matriz dada (uma matriz de escala - portanto, uma matriz diagonal, sem outras restrições). Em certo sentido, eu queria saber o que acontece (em termos de semelhança de cosseno para qualquer par de vetores) com um espaço vetorial que sofre uma escala não linear.
turdus-merula
2
Vale a pena notar que, se todos os fatores de escala não forem negativos (como seria de se presumir naturalmente), todas as matrizes positivas simétricas definidas podem ser consideradas matrizes de "escala". O relacionamento que você procura é amplamente utilizado, entre outros , no estudo e na descrição da distorção nas projeções de mapas. Lá, os centros de interesse são os ângulos máximo e mínimo na superfície da Terra, que seriam associados a duas direções perpendiculares no mapa. Existe uma relação direta entre esses ângulos e as proporções dos dois fatores de escala.
whuber

Respostas:

8

Como é bastante geral, e a mudança na semelhança de cosseno depende dos A e B específicos e de sua relação com M , nenhuma fórmula definida é possível. No entanto, existem limites praticamente calculáveis ​​para o quanto a similaridade do cosseno pode mudar . Eles podem ser encontrados extraindo o ângulo entre M A e M B, dado que a semelhança de cosseno entre A e B é um valor especificado, por exemplo, cos ( 2 ϕ ) (onde 2 ϕ é o ângulo entre A e BMABMMAMBABcos(2ϕ)2ϕA ) A resposta nos diz o quanto qualquer ângulo 2 φ pode eventualmente ser dobrado pela transformação M .B2ϕM

Os cálculos ameaçam ser confusos. Algumas escolhas inteligentes de notação, juntamente com algumas simplificações preliminares, reduzem o esforço. Acontece que a solução em duas dimensões revela tudo o que precisamos saber. Este é um problema tratável, dependendo apenas de uma variável real , que é prontamente resolvida usando técnicas de cálculo. Um argumento geométrico simples estende essa solução a qualquer número de dimensões n .θn

Preliminares matemáticas

Por definição, o cosseno do ângulo entre quaisquer dois vetores e B é obtido normalizando-os em comprimento unitário e obtendo seu produto. Portanto,AB

AB(AA)(BB)=cos(2ϕ)

e, escrevendo , o cosseno do ângulo entre as imagens de A e B sob a transformação M éΣ=MMABM

(1)(MA)(MB)((MA)(MA))((MB)(MB))=AΣB(AΣA)(BΣB).

Observe que apenas importa na análise,Σ não o próprio Portanto, podemos explorar a Decomposição de Valor Singular (SVD) de M para simplificar o problema. Lembre-se de que isso expressa M como um produto (da direita para a esquerda) de uma matriz ortogonal V , uma matriz diagonal D e outra matriz ortogonal U :MMMVDU

M=UDV.

Em outras palavras, existe uma base de vectores privilegiados (as colunas de V ) em que M actua por escalonamento de cada um de e i separadamente pelo i th entrada diagonal de D (que chamaremos d i ) e depois aplicar uma rotação (ou anti-rotação) U ao resultado. Essa rotação final não mudará nenhum comprimento ou ângulo e, portanto, não deve afetar Σ . Você pode ver isso formalmente com o cálculoe1,,enVMeiithDdiUΣ

Σ=MM=(UDV)(UDV)=VD(UU)DV=VD2V.

Conseqüentemente, para estudar podemos substituir M livremente por qualquer outra matriz que produz os mesmos valores em ( 1 ) . Ordenando o e i de modo que o d i diminuir em tamanho (e assumindo que M não é idêntica zero), uma escolha agradável de M éΣM(1)eidiMM

M=1d1DV.

Os elementos diagonais de são(1/d1)D

1=d1/d1λ2=d2/d1λ3=d3/d1λn=dn/d10.

Especificamente, o efeito de (seja na sua forma original ou alterada) em todos os ângulos é completamente determinado pelo fato de queM

Mei=λiei.

Análise de um caso especial

Seja . Como alterar os comprimentos dos vetores não altera o ângulo entre eles, podemos assumir que A e B são vetores unitários. No plano, todos esses vetores podem ser designados pelo ângulo que fazem com e 1 , permitindo escrevern=2ABe1

A=cos(θϕ)e1+sin(θϕ)e2.

Portanto

B=cos(θ+ϕ)e1+sin(θ+ϕ)e2.

(Veja a figura abaixo.)

A aplicação de é simples: ela fixa as primeiras coordenadas de A e B e multiplica suas segundas coordenadas por λ 2 . Portanto, o ângulo de M A a M B éMABλ2MAMB

f(θ)=arctan(λ2tan(θ+ϕ))arctan(λ2tan(θϕ)).

Como é uma função contínua, essa diferença de ângulos é uma função contínua de θ . De fato, é diferenciável. Isso nos permite encontrar ângulos extremos inspecionando os zeros da derivada f ( θ ) . Essa derivada é simples de calcular: é uma razão de funções trigonométricas. Os zeros podem ocorrer apenas entre os zeros de seu numerador, portanto, não vamos nos preocupar em calcular o denominador. Nós obtemosMθf(θ)

f(θ)=λ2(1λ2)(λ2+1)sin(2θ)sin(2ϕ).

Os casos especiais de , λ 2 = 1 e ϕ = 0 são facilmente entendidos: eles correspondem às situações em que M é de classificação reduzida (e, assim, esmaga todos os vetores em uma linha); onde M é um múltiplo da matriz de identidade; e onde A e B são paralelos (de onde o ângulo entre eles não pode mudar, independentemente de θ ). O caso λ 2 = - 1 é excluído pela condição λ 20 .λ2=0λ2=1ϕ=0MMABθλ2=1λ20

Além desses casos especiais, os zeros ocorrem apenas onde : ou seja, θ = 0 ou θ = π / 2 . Isto significa que a linha de determinados por e 1 bissecta o ângulo A B . Sabemos agora que os valores extremos do ângulo entre M A e M B deve situar-se entre os valores de f ( θ ) , então vamos calcular-los:sin(2θ)=0θ=0θ=π/2e1ABMAMBf(θ)

f(0)=arctan(λ2tan(ϕ))arctan(λ2tan(ϕ))=2arctan(λ2tan(ϕ));f(π/2)=arctan(λ2tan(π/2+ϕ))arctan(λ2tan(π/2ϕ))=2arctan(λ2cot(ϕ)).

Os cossenos correspondentes são

(2)cos(f(0))=1λ22tan(ϕ)21+λ22tan(ϕ)2

e

(3)cos(f(π/2))=1λ22cot(ϕ)21+λ22cot(ϕ)2=tan(ϕ)2λ22tan(ϕ)2+λ22.

Muitas vezes, é suficiente entender como distorce os ângulos retos. Nesse caso, 2 ϕ = π / 2 , levando a tan ( ϕ ) = berço ( ϕ ) = 1 , que você pode conectar nas fórmulas anteriores.M2ϕ=π/2tan(ϕ)=cot(ϕ)=1

Observe que quanto menor se torna, mais extremos esses ângulos se tornam e maior é a distorção.λ2

Figura mostrando quatro configurações

Esta figura mostra quatro configurações dos vetores eA separados por um ângulo de 2 ϕ = π / 3 . O círculo unitário e sua imagem elíptica sob M são sombreados para referência (com a ação de M redimensionada uniformemente para fazer λ 1 = 1 ). As posições figura indicam o valor de θ , o ponto médio de um e B . O mais próximo que um desses A e B pode chegar quando transformado por M é uma configuração como a da esquerda com θ =B2ϕ=π/3MMλ1=1θABABM . O mais distante que eles podem estar é uma configuração como a da direita com θ = π / 2 . Duas possibilidades intermediárias são mostradas.θ=0θ=π/2

Solução para todas as dimensões

Vimos como age expandindo cada dimensão i por um fator λ i . Isso distorcerá a esfera unitária { AMiλi em um elipsóide. O e i determinar seus eixos principais. O λ i são as distâncias a partir da origem, ao longo desses eixos, ao elipsóide. Consequentemente, a menor, λ n , é amenor distância(em qualquer direção) da origem ao elipsóide e a maior, λ 1 , é amaior distância(em qualquer direção) da origem ao elipsóide.{A|AA=1}eiλiλnλ1

Nas dimensões superiores , A e B fazem parte de um subespaço bidimensional. H mapeia o círculo unitário neste subespaço na intersecção do elipsóide com um plano contendo H A e M B . Essa interseção, sendo uma distorção linear de um círculo, é uma elipse. Obviamente, a maior distância desta elipse não é maior que λ 1 = 1 e a menor distância não é menor que λ n .n>2ABMMAMBλ1=1λn

Como foi observado no final da secção precedente, o mais possibilidade extrema é quando e B estão situados num plano que contém dois dos e i para os quais a razão entre a correspondente λ i é tão pequena quanto possível. Isso acontecerá no plano e 1 , e n . Já temos a solução para esse caso.ABeiλie1,en

Conclusões

Os extremos de semelhança de cosseno alcançáveis ​​aplicando a dois vetores com semelhança de cosseno cos ( 2 ϕ ) são dados porMcos(2ϕ) e ( 3 ) . Eles são alcançados situando A e B em ângulos iguais a uma direção na qual Σ = M M alonga ao máximo qualquer vetor (como adireção e 1 ) e os separa em uma direção na qual length alonga minimamente qualquer vetor (como o e n direcção).(2)(3)ABΣ=MMe1Σen

Esses extremos pode ser calculado em termos da SVD de .M

whuber
fonte
Esta é uma resposta fantástica! Muito obrigado por esta discussão detalhada! Acredito que você tenha um erro de sinal na eqn (3), onde você deve apenas ter um sinal de menos geral.
LFH
Estou interessado no caso em que o ângulo aproxima de zero e eu gostaria de obter uma desigualdade entre 2 ϕ e f . É verdade que, com base no seu cálculo, só preciso encontrar o mais extremo (o menor) λ n e, neste caso, a desigualdade assintótica é dada por 2 λ n ϕ f 22ϕ2ϕfλn como ϕ 0 ? 2λnϕf2λn1ϕϕ0
LFH
6

Você provavelmente está interessado em:

(MA,MB)=AT(MTM)B,

Você pode diagonalizar (ou como você chama, PCA), o que indica que a semelhança deMTM=UΣUT na transformação M se comporta projetando A , B em seus componentes principais e subsequentemente calculando a similaridade neste novo espaço. Para concretizar este um pouco mais, deixe os principais componentes ser u i com valores próprios Ganhe muitos i . EntãoA,BMA,Buiλi

UB=i(ui,bi)ui, UA=i(ui,ai)ui,

o que lhe dá:

(MA,MB)=i=1n(ui,ai)(ui,bi)λi.

Observe que há uma escala acontecendo aqui: o está se esticando / encolhendo. Quando A , B são vetores unitários e se todo λ i = 1 , M é invertível e a decomposição polar de M satisfaz M = OλiA,Bλi=1M corresponde a uma rotação, e você começa: , o que equivale a dizer que os produtos internos são invariantes em rotações. Em geral, o ângulo permanece o mesmo quando M é uma transformação conforme, que neste caso exige que Msim(MA,MB)=sim(A,B)MMM com P = um I , isto é, M t H = um 2 I .M=OPP=aIMTM=a2I

Alex R.
fonte
11
Sua declaração inicial do problema negligencia a normalização dos vetores , B , M A e M B necessários para calcular a similaridade do cosseno. Também não parece que a análise subsequente aborda essa normalização. Observe, em particular, que as semelhanças de cosseno são preservadas mesmo quando todos os autovalores são iguais a algum valor (positivo) que difere de 1ABMAMB1 . Isso demonstra, mesmo neste caso simples, que muito mais pode ser dito.
whuber
@whuber: similaridade cosseno é preservado exactamente quando é uma transformação conformacional, que neste caso é equivalente a requerendo M a ser invertida e M t H = um 2 I , um múltiplo da identidade. Dito de outro modo, a decomposição polar de H satisfaz M = O P , onde P = um eu . Você está certo sobre a normalização, mas, ao que parece bobagem para falar sobre a similaridade do cosseno com vetores não normalizados A , B . MMMTM=a2IMM=OPP=aIA,B
Alex R.
2
Não é bobo! Como essa "similaridade" é dada pelo cosseno do ângulo entre os vetores, faz sentido para quaisquer dois vetores diferentes de zero. O que eu quis dizer com "muito mais pode ser dito" é que limites efetivos no ângulo entre as imagens de e B podem ser obtidos em termos do ângulo entre A e BABAB e os valores próprios de . M
whuber