Toda matriz de correlação é positiva definida?

11

Estou falando aqui de matrizes de correlações de Pearson.

Eu sempre ouvi dizer que todas as matrizes de correlação devem ser positivas semidefinidas. Meu entendimento é que matrizes definidas positivas devem ter valores próprios , enquanto matrizes semidefinidas positivas devem ter valores próprios 0 . Isso me faz pensar que minha pergunta pode ser reformulada como "É possível que matrizes de correlação tenham um autovalor = 0 ?">0 00 0=0 0

É possível que uma matriz de correlação (gerada a partir de dados empíricos, sem dados ausentes) tenha um valor próprio ou um valor próprio < 0 ? E se fosse uma matriz de correlação populacional?=0 0<0 0

Eu li na primeira resposta a esta pergunta sobre matrizes de covariância que

Considere três variáveis , Y e Z = X + Y . Sua matriz de covariância, M , não é positiva definida, pois existe um vetor z ( = ( 1 , 1 , - 1 ) ) para o qual z M z não é positivo.XYZ=X+YMz=(1 1,1 1,-1 1)zMz

No entanto, se em vez de uma matriz de covariância eu fizer esses cálculos em uma matriz de correlação, positivo. Portanto, acho que talvez a situação seja diferente para matrizes de correlação e covariância.zMz

Minha razão para perguntar é que fui perguntado sobre o stackoverflow , em relação a uma pergunta que fiz lá.

user1205901 - Restabelecer Monica
fonte
Se, por exemplo, dois atributos são uma coisa, apenas com nomes diferentes, a matriz é singular. Se dois atributos adicionar a uma constante, é novamente singular, et cetera .
precisa saber é o seguinte
Se uma matriz de covariância é singular, a matriz de correlação também é singular.
precisa saber é o seguinte
2
Quase duplicatas: toda matriz de correlação é semi-definida positiva? que tem menos foco no ângulo definido versus semi-definido, e toda matriz de covariância é positiva? o que é relevante porque uma covariância é essencialmente uma correlação redimensionada.
Silverfish

Respostas:

16

Matrizes de correlação não precisam ser positivas definidas.

Considere uma variável aleatória escalar X com variação diferente de zero. Então a matriz de correlação de X consigo mesma é a matriz de todos os que é semi-definida positiva, mas não definida positiva.

Quanto à correlação amostral, considere os dados amostrais para o exposto acima, com a primeira observação 1 e 1 e a segunda observação 2 e 2. Isso resulta na correlação amostral sendo a matriz de todas, portanto, não positiva definitiva.

Uma matriz de correlação de amostra, se calculada na aritmética exata (ou seja, sem erro de arredondamento) não pode ter autovalores negativos.

Mark L. Stone
fonte
4
Vale a pena mencionar os possíveis efeitos dos valores ausentes na matriz de correlação da amostra . A confusão numérica não é a única razão para obter um valor próprio negativo em uma matriz de correlação / covariância de amostra.
Silverfish
11
Sim, não expliquei, mas estava assumindo, de acordo com a declaração da pergunta, "sem dados ausentes". Quando você entra no mundo selvagem e maluco de dados perdidos e ajustes, tudo vale.
Mark L. Stone
Sim, desculpe, você está certo. A pergunta dizia "sem dados ausentes" - apenas achei que vale a pena mencionar em algum lugar, já que futuros pesquisadores podem estar interessados, mesmo que o apetite do OP esteja saciado!
Silverfish
7

As respostas de @yoki e @MarkLStone (+1 para ambos) apontam que uma matriz de correlação populacional pode ter zero autovalores se as variáveis ​​forem linearmente relacionadas (como, por exemplo, no exemplo de @MarkLStone e X 1 = 2 X 2 no exemplo de @yoki).X1 1=X2X1 1=2X2

Além disso, uma matriz de correlação de amostra necessariamente terá zero autovalores se , ou seja, se o tamanho da amostra for menor que o número de variáveis. Nesse caso, as matrizes de covariância e correlação estarão no máximo no ranking n - 1 , portanto haverá pelo menos p - n + 1 zero autovalores. Consulte Por que uma matriz de covariância de amostra é singular quando o tamanho da amostra é menor que o número de variáveis? e Por que a classificação da matriz de covariância é no máximo n - 1 ?n<pn-1 1p-n+1 1n-1 1

ameba
fonte
Verdadeiro. Suponho que eu poderia ter e deveria ter fornecido essas informações também, mas meu objetivo era produzir um contraexemplo para refutar a hipótese do OP, mostrando assim sua invalidade. terá no máximo a posição n − 1, portanto haverá pelo menos (p − n + 1) zero autovalores ".
Mark L. Stone
4

Considere como um rv com média 0 e variação de 1. Seja Y = 2 X e calcule a matriz de covariância de ( X , Y ) . Como 2 X = Y , E [ Y 2 ] = 4 E [ X 2 ] = σ 2 Y , e E [ X Y ] = 2 E [ X 2 ]XY=2X(X,Y)2X=YE[Y2]=4E[X2]=σY2E[XY]=2E[X2]. Devido à configuração da média zero, os segundos momentos são iguais às covariâncias adequadas, por exemplo: .Cov(X,Y)=E[XY]-EXEY=E[XY]

Portanto, a matriz de covariância será: com um valor próprio zero. A matriz de correlação será: Λ = ( 1 1 1 1 ) , tendo um valor próprio zero também. Devido à correspondência linear entre X e Y , é fácil ver por que obtemos essa matriz de correlação - a diagonal sempre será 1 e a fora da diagonal é 1 por causa da relação linear.

Λ=(1 1224),
Λ=(1 11 11 11 1),
XY
yoki
fonte
2Λcov(X,Y)=E(XY)-E(X)E(Y)=2E[X2]=2(σX2+[E(X)]2)E(X2)=Var(X)+[E(X)]2
dEuumagΛ-1 1/2ΛdEuumagΛ1 1/2
@AntoniParellada, não sei exatamente o que você quer dizer - a covariância aqui é um cálculo direto. Mas vou editar e deixar isso mais claro. Obrigado.
yoki