Estou falando aqui de matrizes de correlações de Pearson.
Eu sempre ouvi dizer que todas as matrizes de correlação devem ser positivas semidefinidas. Meu entendimento é que matrizes definidas positivas devem ter valores próprios , enquanto matrizes semidefinidas positivas devem ter valores próprios ≥ 0 . Isso me faz pensar que minha pergunta pode ser reformulada como "É possível que matrizes de correlação tenham um autovalor = 0 ?"
É possível que uma matriz de correlação (gerada a partir de dados empíricos, sem dados ausentes) tenha um valor próprio ou um valor próprio < 0 ? E se fosse uma matriz de correlação populacional?
Eu li na primeira resposta a esta pergunta sobre matrizes de covariância que
Considere três variáveis , Y e Z = X + Y . Sua matriz de covariância, M , não é positiva definida, pois existe um vetor z ( = ( 1 , 1 , - 1 ) ′ ) para o qual z ′ M z não é positivo.
No entanto, se em vez de uma matriz de covariância eu fizer esses cálculos em uma matriz de correlação, positivo. Portanto, acho que talvez a situação seja diferente para matrizes de correlação e covariância.
Minha razão para perguntar é que fui perguntado sobre o stackoverflow , em relação a uma pergunta que fiz lá.
fonte
Respostas:
Matrizes de correlação não precisam ser positivas definidas.
Considere uma variável aleatória escalar X com variação diferente de zero. Então a matriz de correlação de X consigo mesma é a matriz de todos os que é semi-definida positiva, mas não definida positiva.
Quanto à correlação amostral, considere os dados amostrais para o exposto acima, com a primeira observação 1 e 1 e a segunda observação 2 e 2. Isso resulta na correlação amostral sendo a matriz de todas, portanto, não positiva definitiva.
Uma matriz de correlação de amostra, se calculada na aritmética exata (ou seja, sem erro de arredondamento) não pode ter autovalores negativos.
fonte
As respostas de @yoki e @MarkLStone (+1 para ambos) apontam que uma matriz de correlação populacional pode ter zero autovalores se as variáveis forem linearmente relacionadas (como, por exemplo, no exemplo de @MarkLStone e X 1 = 2 X 2 no exemplo de @yoki).X1 1= X2 X1 1= 2 X2
Além disso, uma matriz de correlação de amostra necessariamente terá zero autovalores se , ou seja, se o tamanho da amostra for menor que o número de variáveis. Nesse caso, as matrizes de covariância e correlação estarão no máximo no ranking n - 1 , portanto haverá pelo menos p - n + 1 zero autovalores. Consulte Por que uma matriz de covariância de amostra é singular quando o tamanho da amostra é menor que o número de variáveis? e Por que a classificação da matriz de covariância é no máximo n - 1 ?n < p n - 1 p - n + 1 n - 1
fonte
Considere como um rv com média 0 e variação de 1. Seja Y = 2 X e calcule a matriz de covariância de ( X , Y ) . Como 2 X = Y , E [ Y 2 ] = 4 E [ X 2 ] = σ 2 Y , e E [ X Y ] = 2 E [ X 2 ]X Y= 2 X ( X, Y) 2 X= Y E[ Y2] = 4 E[ X2] = σ2Y E[ XY] = 2 E[ X2] . Devido à configuração da média zero, os segundos momentos são iguais às covariâncias adequadas, por exemplo: .Cov (X, Y) = E[ XY] - EXEY= E[ XY]
Portanto, a matriz de covariância será: com um valor próprio zero. A matriz de correlação será: Λ = ( 1 1 1 1 ) , tendo um valor próprio zero também. Devido à correspondência linear entre X e Y , é fácil ver por que obtemos essa matriz de correlação - a diagonal sempre será 1 e a fora da diagonal é 1 por causa da relação linear.
fonte
2