No livro que estou lendo, eles usam definição positiva (definição semi-positiva) para comparar duas matrizes de covariância. A idéia é que, se é pd então é menor do que . Mas estou lutando para conseguir a intuição desse relacionamento?
Há um tópico semelhante aqui:
/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices
Qual é a intuição para usar a definição definitiva para comparar matrizes?
Embora as respostas sejam boas, elas realmente não abordam a intuição.
Aqui está um exemplo que eu acho confuso:
Agora aqui o determinante da diferença é -25, de modo que a relação não é pd ou mesmo psd e, portanto, a primeira matriz não é maior que a primeira?
Eu simplesmente quero comparar duas matrizes de covariância 3 * 3 para ver qual é a menor? Parece-me mais intuitivo usar algo como a norma euclidiana para compará-los? No entanto, isso significa que a primeira matriz acima é maior que o segundo matix. Além disso, só vejo o critério pd / psd usado para comparar matrizes de covariância.
Alguém pode explicar por que o pd / psd é melhor do que usar outra medida, como a norma euclidiana?
Também publiquei essa pergunta no fórum de matemática (não sabia o que era melhor), espero que isso não viole nenhuma regra.
a
eb
, sea-b
for positivo, então diríamos que após a remoção variabilidadeb
fora doa
resta alguma variabilidade "real" deixada noa
. Da mesma forma, é um caso de variâncias multivariadas (= matrizes de covariância)A
eB
. SeA-B
é definido positivamente, isso significa que aA-B
configuração de vetores é "real" no espaço euclidiano: em outras palavras, ao removerB
deA
, o último ainda é uma variabilidade viável.Respostas:
A ordem das matrizes a que você se refere é conhecida como ordem de Loewner e é uma ordem parcial muito usada no estudo de matrizes definidas positivas. Aqui está um tratamento de livro da geometria no coletor de matrizes positivas-definidas (posdef) .
Primeiro tentarei abordar sua pergunta sobre intuições . Uma matriz (simétrica)UMA é posdef se cTA c ≥ 0 para todos os c ∈ Rn . Se X é uma variável aleatória (rv) com matriz de covariância UMA , então cTX é (proporcional a) sua projeção em algum subespaço de uma dimensão e V a r ( cTX) = cTA c . Aplicando isso a A - B em sua Q, em primeiro lugar: é uma matriz de covariância, segunda: uma variável aleatória com matriz COVAR B projectos em todas as direções com variação menor do que um rv com covariância matriz UMA . Isso deixa intuitivamente claro que essa ordem pode ser apenas parcial; existem muitos rvs que se projetam em direções diferentes com variações muito diferentes. Sua proposta de alguma norma euclidiana não tem uma interpretação estatística tão natural.
Seu "exemplo confuso" é confuso porque ambas as matrizes têm zero determinante. Portanto, para cada um, há uma direção (o vetor próprio com valor próprio zero) em que eles sempre se projetam para zero . Mas essa direção é diferente para as duas matrizes, portanto elas não podem ser comparadas.
A ordem Loewner é definida de forma queA ⪯ B , B seja mais positivo definido que UMA , se B - A for posdef. Esta é uma ordem parcial, para algumas matrizes posdef nem B - A nem A - B são posdef. Um exemplo é:
A = ( 10,50,51 1) ,B = ( 0,50 00 01.5)
Uma maneira de mostrar isso graficamente é desenhar um gráfico com duas elipses, mas centralizado na origem, associado de maneira padrão às matrizes (então a distância radial em cada direção é proporcional à variação de projetando nessa direção):
Nesse caso, as duas elipses são congruentes, mas giradas de maneira diferente (na verdade, o ângulo é de 45 graus). Isso corresponde ao fato de que as matrizesUMA e B têm os mesmos valores próprios, mas os vetores próprios são rotacionados.
Como essa resposta depende muito das propriedades das elipses, a seguir, qual é a intuição por trás das distribuições gaussianas condicionais? explicar elipses geometricamente, pode ser útil.
Agora vou explicar como as elipses associadas às matrizes são definidas. Uma matriz posdefUMA define uma forma quadrática QUMA( c ) = cTA c . Isso pode ser plotado como uma função, o gráfico será quadrático. Se A ⪯ B , em seguida, o gráfico de QB será sempre acima do gráfico de QUMA . Se recortarmos os gráficos com um plano horizontal na altura 1, os cortes descreverão elipses (que na verdade são uma maneira de definir elipses). As elipses deste corte são dadas pelas equações
QUMA( C ) = 1 ,QB( C ) = 1
e vemos queA ⪯ B corresponde à elipse de B (agora com interior) está contida na elipse de A. Se não houver ordem, não haverá contenção. Observamos que a ordem de inclusão é oposta à ordem parcial de Loewner, se não gostarmos de que podemos desenhar elipses dos inversos. Isso porqueA ⪯ B é equivalente aB- 1⪯ A- 1 . Mas vou ficar com as elipses, conforme definido aqui.
Uma elipse pode ser descrita com os semiaxos e seu comprimento. Discutiremos apenas2 × 2 -matrizes aqui, pois são eles que podemos desenhar ... Portanto, precisamos dos dois eixos principais e seu comprimento. Isso pode ser encontrado, conforme explicado aqui, com uma composição independente da matriz posdef. Então os eixos principais são dados pelos vetores próprios, e seu comprimento a , b pode ser calculado a partir dos valores próprios λ1 1, λ2 por
a = 1 / λ1 1----√,b = 1 / λ2----√.
Também podemos ver que a área da elipse representandoUMA éπa b = π1 / λ1 1----√1 / λ2----√= πdet A√ .
Vou dar um exemplo final em que as matrizes podem ser ordenadas:
As duas matrizes neste caso foram:A = ( 2 / 31 / 51 / 53 / 4) ,B = ( 11 / 71 / 71 1)
fonte
O @kjetil b halvorsen oferece uma boa discussão sobre a intuição geométrica por trás da semi-definição positiva como uma ordem parcial. Vou dar uma opinião mais suja da mesma intuição. Um que procede de que tipos de cálculos você gostaria de fazer com suas matrizes de variação.
fonte