Como a centralização dos dados se livra da interceptação na regressão e no PCA?

40

Eu continuo lendo sobre instâncias em que centralizamos os dados (por exemplo, com regularização ou PCA) para remover a interceptação (conforme mencionado nesta pergunta ). Eu sei que é simples, mas estou tendo dificuldades para entender isso intuitivamente. Alguém poderia fornecer a intuição ou uma referência que eu possa ler?

Alec
fonte
2
Este é um caso muito especial de "controle de outras variáveis", conforme explicado (de várias maneiras) em stats.stackexchange.com/questions/17336/… . A "variável" que está sendo controlada é o termo constante (interceptação).
whuber

Respostas:

66

Essas fotos podem ajudar?

As duas primeiras fotos são sobre regressão. A centralização dos dados não altera a inclinação da linha de regressão, mas torna a interceptação igual a 0.

insira a descrição da imagem aqui

As imagens abaixo são sobre PCA. PCA é um modelo regressivo sem interceptação . Assim, componentes principais inevitavelmente passam pela origem. Se você esquecer de centralizar seus dados, o primeiro componente principal poderá perfurar a nuvem não na direção principal da nuvem e será (para fins estatísticos) enganoso.1 1

insira a descrição da imagem aqui


1 1 PCA não é uma análise de regressão , é claro. No entanto, compartilha formalmente a mesma equação linear (combinação linear) com regressão linear. A equação do PCA é como a equação de regressão linear sem interceptação - porque o PCA é uma operação de rotação.

ttnphns
fonte
11
y¯-X¯β
16
PCA is maximizing varianceIsso geralmente não é verdade. O PCA maximiza (no 1º PC) os desvios da soma do quadrado da origem. Somente se os dados foram centrados preliminarmente (o centramento em si não faz parte do PCA) é que eles maximizam a variação.
ttnphns
3
PS Nota que a computação de covariâncias ou correlações implica centrar
ttnphns
11
> PS Observe que o cálculo de covariâncias ou correlações implica centralização - 27 de agosto de 2012 às 11:47 Embora eu concorde com seus outros comentários, covariância e correlação NÃO implicam centralização. Nem cor nem covar alteram o valor quando uma constante aditiva é aplicada aos dados.
TPM
11
Isso é ao contrário. As constantes aditivas de fato não afetam as correlações, mas isso é porque elas são subtraídas nos cálculos, como apontou @ttphns. Além disso, essa não é uma resposta nova, mas um comentário. Entendemos que você ainda não tem reputação suficiente para comentar, portanto, confio que isso será movido por um usuário com reputação suficiente depois que eu o sinalizar.
Nick Cox