Eu continuo lendo sobre instâncias em que centralizamos os dados (por exemplo, com regularização ou PCA) para remover a interceptação (conforme mencionado nesta pergunta ). Eu sei que é simples, mas estou tendo dificuldades para entender isso intuitivamente. Alguém poderia fornecer a intuição ou uma referência que eu possa ler?
regression
pca
centering
Alec
fonte
fonte
Respostas:
Essas fotos podem ajudar?
As duas primeiras fotos são sobre regressão. A centralização dos dados não altera a inclinação da linha de regressão, mas torna a interceptação igual a 0.
As imagens abaixo são sobre PCA. PCA é um modelo regressivo sem interceptação . Assim, componentes principais inevitavelmente passam pela origem. Se você esquecer de centralizar seus dados, o primeiro componente principal poderá perfurar a nuvem não na direção principal da nuvem e será (para fins estatísticos) enganoso.1 1
fonte
PCA is maximizing variance
Isso geralmente não é verdade. O PCA maximiza (no 1º PC) os desvios da soma do quadrado da origem. Somente se os dados foram centrados preliminarmente (o centramento em si não faz parte do PCA) é que eles maximizam a variação.