Fiz essa pergunta em uma entrevista.
Digamos que temos uma matriz de correlação da forma
Me pediram para encontrar o valor da gama, dada essa matriz de correlação.
Eu pensei que poderia fazer algo com os autovalores, já que eles deveriam ser maiores ou iguais a 0. (Matrix deve ser semidefinido positivo) - mas não acho que essa abordagem dê a resposta. Estou perdendo um truque.
Você poderia fornecer uma dica para resolver o mesmo?
pearson-r
correlation-matrix
novato
fonte
fonte
Respostas:
Já sabemos que está delimitado entre [ - 1 , 1 ] A matriz de correlação deve ser positiva semidefinida e, portanto, seus principais menores devem ser não negativosγ [−1,1]
Assim,
fonte
Aqui está uma solução mais simples (e talvez mais intuitiva):
Pense na covariância como um produto interno sobre um espaço vetorial abstrato . Em seguida, as entradas na matriz de correlação são para os vectores de v 1 , v 2 , v 3 , em que o ângulo de montagem ⟨ v i , v j ⟩ indica o ângulo entre o v i e v j .cos⟨vi,vj⟩ v1 v2 v3 ⟨vi,vj⟩ vi vj
Não é difícil visualizar que é limitada por | ⟨ V 1 , v 2 ⟩ ± ⟨ v 1 , v 3 ⟩ | . O ligado na sua co-seno ( γ ) é, assim, cos [ ⟨ v⟨v2,v3⟩ |⟨v1,v2⟩±⟨v1,v3⟩| γ . A trigonometria básica forneceγ∈[0,6×cos[⟨v1,v2⟩±⟨v1,v3⟩] .γ∈[0.6×0.8−0.6×0.8,0.6×0.8+0.6×0.8]=[0,0.96]
Edit: Note que o na última linha é realmente cos ⟨ v 1 , v 2 ⟩ cos ⟨ v 1 , v 3 ⟩ ∓ pecado ⟨ v 1 , v 3 ⟩ pecado ⟨ v 1 , v 2 ⟩ - a segunda aparição de 0.6 e 0.8 ocorre por coincidência, graças a 0.6 2 + 0.8 2 = 10.6×0.8∓0.6×0.8 cos⟨v1,v2⟩cos⟨v1,v3⟩∓sin⟨v1,v3⟩sin⟨v1,v2⟩ 0.62+0.82=1 .
fonte
Aqui está o que eu quis dizer no meu comentário inicial à resposta e o que eu percebo que @yangle pode estar falando (embora eu não tenha seguido / verificado o cálculo).
"Matriz deve ser semidefinida positiva" implica que os vetores variáveis são um monte no espaço euclidiano. O caso da matriz de correlação é mais fácil do que a matriz de covariância, porque os três comprimentos dos vetores são fixados em 1. Imagine 3 vetores unitários XYZ e lembre-se de que é o cosseno do ângulo . Portanto, cos α = r x y = 0,6 e cos β = r y z = 0,8 . Quais podem ser os limites para cos γ = r x zr cosα=rxy=0.6 cosβ=ryz=0.8 cosγ=rxz ? Essa correlação pode assumir qualquer valor definido por Z circunscrevendo sobre Y (mantendo o ângulo com ele):ryz=0.8
Enquanto gira, duas posições são notáveis como o último wrt X, ambas são quando Z cai no plano XY. Um está entre X e Y, e o outro está no lado oposto de Y. Estes são mostrados por vetores azuis e vermelhos. Em ambas as posições, exatamente a configuração XYZ (matriz de correlação) é singular. E esses são os ângulos mínimo e máximo (daí a correlação) Z pode atingir X errado.
Escolhendo a fórmula trigonométrica para calcular a soma ou diferença de ângulos em um plano, temos:
como limites.cosγ=rxyryz∓(1−r2xy)(1−r2yz)−−−−−−−−−−−−−−√=[0,0.96]
Essa visualização geométrica é apenas outra (e uma específica e mais simples no caso 3D) sobre o que @rightskewed expressa em termos algébricos (menores etc.).
fonte
Brincar com os principais menores de idade pode ser bom em problemas de 3 por 3 ou talvez 4 por 4, mas fica sem gás e com estabilidade numérica em dimensões mais altas.
Para um único problema de parâmetro "livre" como esse, é fácil ver que o conjunto de todos os valores que compõem o psd da matriz será um intervalo único. Portanto, é suficiente encontrar os valores mínimos e máximos. Isso pode ser feito facilmente, resolvendo numericamente um par de problemas lineares de Programação Semi-Definida (SDP):
Por exemplo, esses problemas podem ser formulados e resolvidos numericamente usando o YALMIP no MATLAB.
Rápido, fácil e confiável.
BTW, se o entrevistador do smarty pants fazer a pergunta não souber que a Programação SemiDefinita, que é bem desenvolvida e possui otimizadores numéricos sofisticados e fáceis de usar para resolver problemas práticos com segurança, pode ser usada para resolver esse problema e muito mais. variantes difíceis, diga a ele que isso não é mais 1870 e que é hora de aproveitar os desenvolvimentos computacionais modernos.
fonte
Vamos considerar o seguinte conjunto convexo
que é um espectroedro chamado3 dimensional elliptope . Aqui está uma representação deste elíptico
Interseção deste elíptico com os planos definidos porx = 0,6 e por y= 0,8 , obtemos um segmento de linha cujos pontos finais são coloridos em amarelo
O limite do elíptico é uma superfície cúbica definida por
E sex = 0,6 e y= 0,8 , então a equação cúbica acima se resume à equação quadrática
Assim, a interseção do elíptico com os dois planos é o segmento de linha parametrizado por
fonte
Toda matriz semi-definida positiva é uma matriz de correlação / covariância (e vice-versa).
Para ver isso, comece com uma matriz semi-definida positivaUMA e tomar sua decomposição autônoma (que existe pela forma espectral, já que UMA is symmetric) A=UDUT where U is a matrix of orthonormal eigenvectors and D is a diagonal matrix with eigen values on the diagonal. Then, let B=UD1/2UT where D1/2 is a diagonal matrix with the square root of eignevalues on the diagonal.
Then, take a vector with i.i.d. mean zero and variance 1 entries,x and note that Bx also has mean zero, and covariance (and correlation) matrix A .
Now, to see every correlation/covariance matrix is positive semi-definite is simple: LetR=E[xxT] be a correlation matrix. Then, R=RT is easy to see, and aTRa=E[(aTx)2]≥0 so the Rayleigh quotient is non-negative for any non-zero a so R is positive semi-definite.
Agora, observando que uma matriz simétrica é semi-definida positiva, se e somente se seus autovalores forem negativos, vemos que sua abordagem original funcionaria: calcule o polinômio característico, observe suas raízes para ver se são não-negativos. Observe que é fácil testar a certeza positiva com o Critério de Sylvester (como mencionado no comentário de outra resposta; uma matriz é positiva definida se e somente se os principais menores todos tiverem determinante positivo); existem extensões para semidefinido (todos os menores têm determinante não negativo), mas você deve verificar2n menores neste caso, contra apenas n para definitivo positivo.
fonte