Em Métodos Estatísticos nas Ciências Atmosféricas , Daniel Wilks observa que a regressão linear múltipla pode levar a problemas se houver intercorrelações muito fortes entre os preditores (3ª edição, página 559-560):
Uma patologia que pode ocorrer na regressão linear múltipla é que um conjunto de variáveis preditoras com fortes correlações mútuas pode resultar no cálculo de uma relação de regressão instável.
(...)
Ele então introduz a regressão do componente principal:
Uma abordagem para solucionar esse problema é primeiro transformar os preditores em seus principais componentes, cujas correlações são zero.
Por enquanto, tudo bem. Mas a seguir, ele faz algumas afirmações que não explica (ou pelo menos não em detalhes suficientes para eu entender):
Se todos os componentes principais forem retidos em uma regressão de componente principal, nada será ganho sobre os mínimos quadrados convencionais ajustados ao conjunto completo de preditores.
(..) e:
É possível reexpressar a regressão do componente principal em termos dos preditores originais, mas o resultado geralmente envolverá todas as variáveis preditivas originais, mesmo que apenas um ou alguns preditores do componente principal tenham sido utilizados. Essa regressão reconstituída será enviesada, embora muitas vezes a variação seja muito menor, resultando em um MSE menor em geral.
Eu não entendo esses dois pontos.
Obviamente, se todos os componentes principais forem retidos, usamos as mesmas informações de quando estávamos usando os preditores em seu espaço original. No entanto, o problema das correlações mútuas é removido trabalhando no espaço do componente principal. Ainda podemos ter sobreajuste, mas esse é o único problema? Por que nada é ganho?
Em segundo lugar, mesmo se truncamos os componentes principais (talvez para redução de ruído e / ou para evitar o super ajuste), por que e como isso leva a uma regressão reconstituída tendenciosa? Tendencioso de que maneira?
Fonte do livro: Daniel S. Wilks, Métodos Estatísticos em Ciências Atmosféricas, terceira edição, 2011. International Geophysics Series Volume 100, Academic Press.
fonte
Respostas:
O que acontece quando todos os PCs são usados?
Se todos os PCs forem usados, os coeficientes de regressão resultantes serão idênticos aos obtidos com a regressão OLS; portanto, esse procedimento não deve ser chamado de "regressão de componente principal". É regressão padrão, realizada apenas de forma indireta.
Você está perguntando como é possível que nada seja ganho, já que após o PCA os preditores se tornam ortogonais. O diabo se esconde na retrotransformação dos coeficientes de regressão do espaço PCA para o espaço original. O que você precisa saber é que a variação dos coeficientes de regressão estimados depende inversamente da matriz de covariância dos preditores. Os preditores transformados por PCA, vamos chamá-los de , têm matriz de covariância diagonal (porque não são correlacionados). Portanto, todos os coeficientes de regressão paraZ Z também não são correlacionados; os que correspondem aos PCs de alta variância têm baixa variação (isto é, são estimados com confiabilidade) e os que correspondem aos PCs de baixa variância têm alta variação (isto é, são estimados com confiabilidade). Quando esses coeficientes são transformados de volta aos preditores originais , cada um dos preditores receberá uma parte das estimativas não confiáveis e, portanto, todos os coeficientes podem se tornar não confiáveis .X Xi
Então, nada é ganho.
O que acontece quando apenas alguns PCs são usados?
Quando nem todos os PCs são retidos na PCR, a solução resultante geralmente não será igual à solução padrão de mínimos quadrados comuns . É um resultado padrão que a solução OLS é imparcial : veja o teorema de Gauss-Markov . "Imparcial" significa que está correto em média , mesmo que seja muito barulhento. Como a solução de PCR difere dela, ela será enviesada , o que significa que estará incorreta em média. No entanto, muitas vezes acontece que é substancialmente menos barulhento, levando a previsões gerais mais precisas.β^PCR β^OLS β^
Este é um exemplo da troca de desvio e desvio . Consulte Por que o encolhimento funciona? para alguma discussão geral adicional.
Nos comentários, o @whuber apontou que a solução de PCR não precisa ser diferente da solução OLS e, portanto, não precisa ser enviesada. De fato, se a variável dependente não estiver correlacionada (na população, não na amostra) com todos os PCs de baixa variância que não estão incluídos no modelo de PCR, a eliminação desses PCs não influenciará a imparcialidade. No entanto, é improvável que seja o caso na prática: o PCA é conduzido sem levar em consideração , portanto, é lógico que tenderá a estar um pouco correlacionado com todos os PCs.y y y
Por que usar PCs de alta variação é uma boa idéia?
Isso não fazia parte da pergunta, mas você pode estar interessado no seguinte tópico para uma leitura mais aprofundada: Como os principais componentes principais podem reter o poder preditivo de uma variável dependente (ou até levar a melhores previsões)?
fonte