Condições suficientes e necessárias para o autovalor zero de uma matriz de correlação

11

Dada variável aleatória , com distribuição de probabilidade , a matriz de correlação é positiva, ou seja, seus autovalores são positivos ou zero.nXiP(X1,,Xn)Cij=E[XiXj]E[Xi]E[Xj]

Estou interessado nas condições em que são necessárias e / ou suficientes para que tenha zero autovalores. Por exemplo, uma condição suficiente é que as variáveis ​​aleatórias não sejam independentes: para alguns números reais . Por exemplo, se , é um vetor próprio de com valor próprio zero. Se tivermos m restrições lineares independentes nos X_i 's desse tipo, isso implicaria m zero autovalores.PCmiuiXi=0uiP(X1,,Xn)=δ(X1X2)p(X2,,Xn)u=(1,1,0,,0)CmXim

Há pelo menos uma possibilidade adicional (mas trivial), quando Xa=E[Xa] para alguns a (ou seja, P(X1,,Xn)δ(XaE[Xa]) ), pois nesse caso Cij tenha uma coluna e uma linha de zeros: Cia=Cai=0,i . Como não é realmente interessante, estou assumindo que a distribuição de probabilidade não seja dessa forma.

Minha pergunta é: as restrições lineares são a única maneira de induzir valores próprios zero (se proibimos a exceção trivial dada acima), ou restrições não lineares nas variáveis ​​aleatórias também podem gerar valores próprios zero de C ?

Adão
fonte
11
Por definição, uma coleção de vetores que inclui o vetor zero é linearmente dependente; portanto, sua possibilidade adicional não é nova ou diferente. Poderia explicar o que você quer dizer com "ter um valor próprio"? Parece algum tipo de erro tipográfico. m
whuber
@ whuber: sim, erro de digitação. Corrigido. Eu acho que as duas condições são diferentes: uma é sobre o relacionamento entre as variáveis, enquanto a outra é sobre a probabilidade de apenas uma variável (a saber, ). p(Xa)=δ(XaE(Xa))
Adam
A formulação da sua pergunta é confusa. Ele parece como um teorema fundamental da álgebra linear, mas as referências a variáveis aleatórias "independentes" sugerem que poderia ser de outra coisa completamente. Seria correto entender que toda vez que você usa "independente", você quer dizer no sentido de independência linear e não no sentido de variáveis ​​aleatórias (estatisticamente) independentes? Sua referência a "dados ausentes" é ainda mais confusa, pois sugere que suas "variáveis ​​aleatórias" podem realmente significar apenas colunas de uma matriz de dados. Seria bom ver esses significados esclarecidos.
whuber
@ whuber: eu editei a pergunta. Espero que seja mais claro.
Adam
A condição para independência não precisa necessariamente ser zero (qualquer constante o fará), a menos que a média de cada seja zero. X iiuiXi=0Xi
Sextus Empiricus

Respostas:

6

Talvez, simplificando a notação, possamos trazer as idéias essenciais. Acontece que não precisamos envolver expectativas ou fórmulas complicadas, porque tudo é puramente algébrico.


A natureza algébrica dos objetos matemáticos

A questão diz respeito às relações entre (1) a matriz de covariância de um conjunto finito de variáveis ​​aleatórias e (2) relações lineares entre essas variáveis, consideradas como vetores .X1,,Xn

O espaço vetorial em questão é o conjunto de todas as variáveis ​​aleatórias de variância finita (em qualquer espaço de probabilidade determinado ) modulo o subespaço de variáveis ​​quase certamente constantes, denotadas (Ou seja, consideramos duas variáveis ​​aleatórias e como o mesmo vetor quando existe uma chance zero de diferir de sua expectativa.) Estamos lidando apenas com o vetor de dimensão finita espaço gerado pelo que é o que faz deste um problema algébrico e não analítico.L 2 ( Ω , P ) / R . X Y X - Y V X i ,(Ω,P)L2(Ω,P)/R.XYXYVXi,

O que precisamos saber sobre variações

V é mais do que apenas um espaço vetorial: é um módulo quadrático, porque vem equipado com a variação. Tudo o que precisamos saber sobre variações são duas coisas:

  1. A variação é uma função de valor escalar com a propriedade que para todos os vetoresQ ( um X ) = um 2 Q ( X ) X .QQ(aX)=a2Q(X)X.

  2. A variação não é regenerada.

O segundo precisa de alguma explicação. determina um "produto escalar", que é uma forma bilinear simétrica dada porQ

XY=14(Q(X+Y)Q(XY)).

(Naturalmente, isso nada mais é do que a covariância das variáveis e ) Os vetores e são ortogonais quando seu produto escalar é O complemento ortogonal de qualquer conjunto de vetores consiste em todos os vetores ortogonais para cada elemento de escritoY . X Y 0. AV A ,XY.XY0.AVA,

A0={vVa.v=0 for all vV}.

É claramente um espaço vetorial. Quando , não é regenerado.QV0={0}Q

Permita-me provar que a variação é realmente não-degenerada, mesmo que pareça óbvio. Suponha que é um elemento diferente de zero de Isso significa para todos osequivalentemente,V 0 . X Y = 0 Y V ;XV0.XY=0YV;

Q(X+Y)=Q(XY)

para todos os vetores Tomando dáY = XY.Y=X

4Q(X)=Q(2X)=Q(X+X)=Q(XX)=Q(0)=0

e assim No entanto, sabemos (talvez usando Desigualdade de Chebyshev) que as únicas variáveis ​​aleatórias com variância zero são quase certamente constantes, o que as identifica com o vetor zero em QED.V ,Q(X)=0.V,

Interpretando as perguntas

Voltando às perguntas, na notação anterior, a matriz de covariância das variáveis ​​aleatórias é apenas uma matriz regular de todos os seus produtos pontuais,

T=(XiXj).

Há uma boa maneira de pensar em : ele define uma transformação linear em da maneira usual, enviando qualquer vetor no vetor cujo componente é dado pela regra de multiplicação da matrizR n x = ( x 1 , , xTRn T ( x ) = y = ( y 1 , ... , x n ) i thx=(x1,,xn)RnT(x)=y=(y1,,xn)ith

yi=j=1n(XiXj)xj.

O núcleo dessa transformação linear é o subespaço que ele envia a zero:

Ker(T)={xRnT(x)=0}.

A equação anterior implica que, quando para cadaixKer(T),i

0=yi=j=1n(XiXj)xj=Xi(jxjXj).

Como isso é verdadeiro para todo ele é válido para todos os vetores abrangidos pelo : ou seja, o próprioConsequentemente, quando o vetor dado por fica em Como a variação não é regenerada, isso significa Ou seja, descreve uma dependência linear entre as variáveis ​​aleatórias originais.X i V x Ker ( T ) , j x j Xi,XiVxKer(T),V 0 . j x j X j = 0. x njxjXjV0.jxjXj=0.xn

Você pode verificar facilmente se essa cadeia de raciocínio é reversível:

Dependências lineares entre os como vetores estão em correspondência um-para-um com elementos do núcleo de t .Xj T.

(Lembre-se, essa declaração ainda considera o como definido até uma mudança constante na localização - isto é, como elementos de vez de como apenas variáveis ​​aleatórias.)L 2 ( Ω , P ) / RXjL2(Ω,P)/R

Finalmente, por definição, um valor próprio de é qualquer escalar para o qual existe um vetor diferente de zero com Quando é um valor próprio, o espaço dos vetores próprios associados é (obviamente) o núcleo deλTλT ( x ) = λ x . λ = 0 T .xT(x)=λx.λ=0T.


Sumário

Chegámos à resposta às perguntas: o conjunto de dependências lineares das variáveis aleatórias, qua elementos de corresponde um-para-um com o núcleo de sua matriz de covariância Isso ocorre porque a variação é uma forma quadrática não-regenerada. O kernel também é o espaço próprio associado ao valor próprio zero (ou apenas o subespaço zero quando não há valor próprio zero).T.L2(Ω,P)/R,T.


Referência

Eu adotei amplamente a notação e parte da linguagem do capítulo IV em

Jean-Pierre Serre, um curso de aritmética. Springer-Verlag 1973.

whuber
fonte
Uau, isso é ótimo! Apenas uma pergunta para ter certeza de que eu entendo tudo: quando você escreve " como vetores", você não quer dizer coletar variáveis ​​aleatórias em um vetor (ou seja, ), ou é? Se estou certo, acho que você está coletando os possíveis valores da variável aleatória em um vetor, enquanto a distribuição de probabilidade está oculta na definição da variação, certo? X = (XjX iX=(X1,,Xn)Xi
Adam
Eu acho que o principal aspecto que não está muito claro é o seguinte (que pode apenas mostrar minha falta de conhecimento formal da teoria das probabilidades): você parece mostrar que, se houver um valor próprio 0, então temos, por exemplo, . Essa restrição não se refere à distribuição de probabilidade , que está oculta em (acho que esse é o ponto mais inteligente dessa demonstração). Mas o que isso significa ter sem referência a ? Ou isso apenas implica , mas como sabemos que deve ser uma combinação linear de e na função delta ? P Q X 1 = X 2 P P δ ( X 1 - X 2 ) X 1 X 2X1=X2PQX1=X2PPδ(X1X2)X1X2
Adam
Receio não entender seu uso de uma "função delta" nesse contexto, Adam. Isso ocorre em parte porque não vejo necessidade disso e em parte porque a notação é ambígua: seria um delta da Kronecker ou um delta do Dirac, por exemplo?
whuber
Seria um Kronecker ou um Dirac, dependendo das variáveis ​​(discretas ou contínuas). Esses delta podem fazer parte da medida de integração, por exemplo , mais de 2 por 2 matrizes (portanto, quatro variáveis ​​reais , , e , com algum peso (digamos, ), ou eu integro sobre um subgrupo.Se forem matrizes simétricas (implicando, por exemplo, ), posso formalmente impor isso multiplicando por . Isso seria uma restrição linear Um exemplo de restrição não linear é dado nos comentários abaixo da resposta de Martijn Weterings.X 1 X 2 X 3 X 4 P = exp ( - t r ( M . H T ) ) X 2 = X 3 P δ ( X 1 - X 2 )MX1X2X3X4P=exp(tr(M.MT))X2=X3Pδ(X1X2)
Adam
(continuação) A questão é: o que a lata de restrições não lineares que posso adicionar em minhas variáveis ​​pode induzir um valor próprio 0. Pelas suas respostas, parece ser: apenas a restrição não linear que implica restrição linear (como exemplificado nos comentários abaixo da resposta de Martijn Weterings). Talvez o problema seja que minha maneira de pensar sobre o problema é de um ponto de vista físico, e luto para explicá-lo em um idioma diferente (acho que aqui é o lugar certo para fazer essa pergunta, sem a física.SE).
Adam
5

A independência linear não é apenas suficiente, mas também uma condição necessária

Para mostrar que a matriz de variância-covariância possui autovalores iguais a zero se e somente se as variáveis ​​não forem linearmente independentes, resta apenas mostrar que "se a matriz tiver autovalores iguais a zero, as variáveis ​​não serão linearmente independentes".

Se você tiver um autovalor zero para , haverá alguma combinação linear (definida pelo vetor próprio )vCij=Cov(Xi,Xj)v

Y=i=1nvi(Xi)

de tal modo que

Cov(Y,Y)=i=1nj=1nvivjCov(Xi,Xj)=i=1nvij=1nvjCij=i=1nvi0=0

o que significa que precisa ser uma constante e, portanto, as variáveis precisam somar uma constante e são constantes (o caso trivial) ou não são linearmente independentes.X iYXi

- a primeira linha na equação com é devido à propriedade de covariânciaCov ( a U + b V , c W + d X ) = a cCov(Y,Y)

Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)

- o passo da segunda para a terceira linha é devido à propriedade de um valor próprio zero

j=1nvjCij=0


Restrições não lineares

Portanto, como restrições lineares são uma condição necessária (não apenas suficiente), restrições não lineares só serão relevantes quando implicarem indiretamente uma restrição linear (necessária).

De fato, existe uma correspondência direta entre os vetores próprios associados ao valor próprio zero e as restrições lineares.

Cv=0Y=i=1nviXi=const

Assim, restrições não lineares que levam a um valor próprio zero devem, juntas, gerar alguma restrição linear.


Como restrições não lineares podem levar a restrições lineares

Seu exemplo nos comentários pode mostrar intuitivamente como restrições não lineares podem levar a restrições lineares ao reverter a derivação. As seguintes restrições não lineares

a2+b2=1c2+d2=1ac+bd=0adbc=1

pode ser reduzido para

a2+b2=1c2+d2=1ad=0b+c=0

Você poderia inverter isso. Digamos que você tenha restrições não lineares e lineares, não é estranho imaginar como podemos substituir uma das restrições lineares por uma restrição não linear, preenchendo as restrições lineares nas restrições não lineares. Por exemplo, quando substituímos e na forma não-linear , então você pode fazer uma outra relação . E quando você multiplicar e então você começa .ba=da 2 + b 2 = 1 a d - b c = 1 a = d c = - b a c = - b db=ca2+b2=1adbc=1a=dc=bac=bd

Sextus Empiricus
fonte
Eu acho que isso (e a resposta do whuber) é uma resposta indireta à minha pergunta (que era: "a dependência linear é a única maneira de obter um autovalor zero") desta maneira: mesmo que a dependência entre as variáveis ​​aleatórias não seja linear, ele sempre pode ser reescrito como uma dependência linear, basta escrever . Embora eu estivesse realmente procurando uma maneira de caracterizar as possíveis restrições não lineares, acho que é um resultado útil. Y=iνiXi
Adam
Sim, eu sei ... o que estou dizendo é que, se houver uma dependência não linear e um valor próprio zero, então, pela sua resposta, isso significa que a dependência não linear pode ser "fatorada" de alguma forma em uma dependência linear. É uma versão mais fraca do que eu estava procurando, mas ainda assim.
Adam
Seu uma dando um exemplo que não funciona, o que não significa que ele não pode ser o caso ...
Adam
Aqui está um contra-exemplo do que você está dizendo (se você acha que não é, pode nos ajudar a encontrar o que há de errado com a minha formulação do problema :)): Pegue uma matriz aleatória 2 por 2 , com o restrição não linear e . Essas três restrições não lineares podem ser reescritas em termos de 2 restrições lineares e uma linear: o que significa que a matriz de covariância possui dois vetores e0. Remova a restrição e eles desaparecem. M . M T = 1 det M = 1MM.MT=1detM=1detM=1
Adam
M 12 = X 2 M 21 = X 3 M 22 = X 4 X 2 1 +M11=X1 , , e . As restrições são , , (apenas duas são independentes). Eles não implicam um valor próprio zero. No entanto, adicionar implica dois vetores próprios com 0 valores próprios. M12=X2M21=X3M22=X4X 2 3 + X 2 4 = 1 X 1 X 3 + X 2 X 4 = 0 X 1 X 4 - X 2 X 3 = 1X12+X22=1X32+X42=1X1X3+X2X4=0X1X4X2X3=1
Adam
2

Suponha que tenha um vetor próprio com o valor próprio correspondente e , em seguida, . Assim, pela desigualdade de Chebyshev, é quase certamente constante e igual a . Ou seja, todo valor próprio zero corresponde a uma restrição linear, ou seja, . Não há necessidade de considerar nenhum caso especial.v 0 var ( v T X ) = v T C v = 0 v T X v T E [ X ] v T X = v T E [ X ]Cv0var(vTX)=vTCv=0vTXvTE[X]vTX=vTE[X]

Assim, concluímos:

"são restrições lineares a única maneira de induzir valores próprios zero [?]"

Sim.

"restrições não lineares nas variáveis ​​aleatórias também podem gerar zero autovalores de C?"

Sim, se implicarem restrições lineares.

ekvall
fonte
Concordo. Eu esperava que alguém pudesse ser mais específico sobre o tipo de restrições não lineares, mas acho que é difícil fazer melhor se não especificarmos as restrições.
Adam
2

A covariância marix de é simétrica, portanto você pode diagnosticá-la como , com os valores próprios na matriz diagonalReescrevendo isso como , o rhs é a matriz de covariância de , então zero autovalores no lhs correspondem a combinações lineares de com distribuições degeneradas.X C = Q Λ Q T Λ . Λ = Q T C Q Q T X XCXC=QΛQTΛ.Λ=QTCQQTXX

Hasse1987
fonte
Esta é uma descrição concisa muito boa, mas como poderíamos torná-la mais intuitiva que ? QTCQ=cov(QTX)
Sextus Empiricus