Interpretação geométrica do coeficiente de correlação múltipla

24

Estou interessado no significado geométrico da correlação múltipla e no coeficiente de determinação na regressão ou em notação vetorial,R 2 y i = β 1 + β 2 x 2 , i + + β k x k , i + ϵ iRR2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

Aqui a matriz de design possui linhas colunas, das quais a primeira é , um vetor 1s que corresponde à interceptação . n k x 1 = 1 n β 1Xnkx1=1nβ1

A geometria é mais interessante no espaço sujeito dimensional em vez de no espaço variável dimensional. Defina a matriz do chapéu:knk

H=X(XX)1X

Esta é uma projeção ortogonal no espaço da coluna de , ou seja, o plano através da origem estendida pelos vetores que representam cada variável , sendo o primeiro . Então projeta o vetor de respostas observadas em sua "sombra" no plano, o vetor de valores ajustados , e se Ao longo do caminho da projeção, vemos o vetor de resíduos forma o terceiro lado de um triângulo. Isso deve nos fornecer duas rotas para uma interpretação geométrica deXx i 1 n H y y = Hkxi1nHye = y - y R 2y^=Hye=yy^R2:

  1. O quadrado do coeficiente de correlação múltipla, R , que é definido como a correlação entre y e y^ . Isso aparecerá geometricamente como o cosseno de um ângulo.
  2. Em termos de comprimentos de vetores: por exemplo SSresidual=i=1nei2=e2 .

Eu ficaria encantado em ver um breve relato que explica:

  • Os detalhes mais finos de (1) e (2),
  • Por que (1) e (2) são equivalentes,
  • Resumidamente, como o insight geométrico nos permite visualizar as propriedades básicas de R2 , por exemplo, por que ele chega a 1 quando a variação de ruído chega a 0. (Afinal, se não podemos intuir a partir de nossa visualização, não passa de um Bonita foto.)

Compreendo que isso seja mais direto se as variáveis ​​forem centralizadas primeiro, o que remove a interceptação da pergunta. No entanto, na maioria das contas de livros didáticos que apresentam regressão múltipla, a matriz de design é a que eu expus. É claro que é bom se uma exposição se aprofundar no espaço ocupado pelas variáveis ​​centralizadas, mas, para obter uma visão da álgebra linear do livro, seria muito útil relacionar isso de volta ao que está acontecendo geometricamente na situação não centralizada. Uma resposta realmente perspicaz pode explicar o que exatamente está se dividindo geometricamente quando o termo de interceptação é descartado - ou seja, quando o vetorX1né removido do conjunto de abrangência. Eu não acho que esse último ponto possa ser tratado considerando apenas as variáveis ​​centralizadas.

Silverfish
fonte

Respostas:

47

Se houver um termo constante no modelo, então no espaço de coluna de (assim como , que será útil posteriormente). O ajustado é a projeção ortogonal do observado no plano formado pelo espaço da coluna. Isso significa que o vetor de resíduos é perpendicular ao plano e, portanto, a . Considerando o produto escalar, podemos ver , portanto, os componentes de devem somar zero. Como , concluímos que1nXY¯1nY^Ye=yy^1ni=1nei=0eYi=Yi^+eii=1nYi=i=1nYi^ forma que as respostas ajustadas e as observadas tenham média .Y¯

Vetores no espaço sujeito da regressão múltipla

As linhas tracejadas no diagrama representam e Y - ˉ Y 1 N , que são os centradas vectores para as respostas observadas e embutidos. A co-seno do ângulo θ entre estes vectores irão por conseguinte ser a correlação de Y e Y , que, por definição, é o coeficiente de correlação múltipla R . O triângulo estes vectores formar com o vetor de resíduos está em ângulo recto desde Y - ˉ Y 1 n reside no plana, mas YY¯1nY^Y¯1nθYY^RY^Y¯1n é ortogonal a ele. Conseqüentemente:e

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

Também poderíamos aplicar Pitágoras ao triângulo:

YY¯1n2=YY^2+Y^Y¯1n2

O que pode ser mais familiar como:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

Esta é a decomposição da soma dos quadrados, .SStotal=SSresidual+SSregression

A definição padrão para o coeficiente de determinação é:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

Quando as somas de quadrados podem ser particionadas, leva-se uma álgebra direta a mostrar que isso é equivalente à formulação "proporção da variância explicada",

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

Existe uma maneira geométrica de ver isso a partir do triângulo, com álgebra mínima. A fórmula de definição dá e com a trigonometria básico podemos simplificar este cos 2 ( θ ) . Esta é a ligação entre R 2 e R .R2=1sin2(θ)cos2(θ)R2R

Observe como era vital para essa análise ter um termo de interceptação, para que estivesse no espaço da coluna. Sem isso, os resíduos não teria resumiu a zero, e a média dos valores ajustados não teria coincidido com a média de Y . Nesse caso, não poderíamos ter desenhado o triângulo; as somas dos quadrados não teriam se decomposto de maneira pitagórica; R 2 não teria tido a forma e bastante citado S S reg / S S total de nem ser o quadrado de R . Nessa situação, algumas software (inclusive ) utiliza uma fórmula diferente para R 2 em conjunto1nYR2SSreg/SStotalRRR2.

Silverfish
fonte
11
+1 Muito boa redação e número. Estou surpreso que só tenha o meu voto solitário e único.
ameba diz Restabelecer Monica
2
+1. Observe que a figura da sua resposta, com "espaço na coluna X", Y, Ypred como vetores etc., é o que é conhecido nas estatísticas multivariadas como "(reduzida) representação do espaço de assunto" ( consulte , com outros links onde eu a usei) )
ttnphns