Suponha que eu estou correndo uma regressão . Por seleccionando top principais componentes do , é que o modelo de manter o seu poder preditivo em ?k X Y
Eu entendo que a partir de-redução de dimensionalidade / ponto de recurso de seleção de vista, se são os vectores próprios da matriz de covariância de com altos valores próprios, então são top componentes principais com variações máximas. Podemos, assim, reduzir o número de recursos para reter a maior parte do poder preditivo, como eu o entendo. X k X v 1 , X v 2 . . . X v k k k
Mas por que os principais componentes retêm o poder preditivo em ?Y
Se falamos de um OLS geral , não há razão para sugerir que se o recurso tem máxima variância, então tem o poder mais preditiva em .Z i Z i Y
Atualize depois de ver comentários: acho que já vi vários exemplos de uso do PCA para redução de dimensionalidade. Suponho que isso signifique que as dimensões que nos restam têm o poder mais preditivo. Caso contrário, qual é o ponto de redução de dimensionalidade?
Respostas:
De fato, não há garantia de que os principais componentes principais (PCs) tenham mais poder preditivo do que os de baixa variação.
Exemplos do mundo real podem ser encontrados onde esse não é o caso, e é fácil construir um exemplo artificial em que, por exemplo, apenas o menor PC tenha alguma relação com .y
Este tópico foi discutido bastante em nosso fórum e, na (infeliz) ausência de um tópico claramente canônico, só posso fornecer vários links que, juntos, fornecem vários exemplos da vida real e artificial:
E o mesmo tópico, mas no contexto da classificação:
No entanto, na prática, os principais PCs muitas vezes que muitas vezes têm mais poder preditivo do que os de baixa variância, e, além disso, usando apenas PCs top pode render melhor poder preditivo do que usar todos os PCs.
Em situações com muitos preditores e relativamente poucos pontos de dados n (por exemplo, quando p ≈ n ou mesmo p > n ), a regressão comum será superajustada e precisará ser regularizada. A regressão por componente principal (PCR) pode ser vista como uma maneira de regularizar a regressão e tenderá a fornecer resultados superiores. Além disso, está intimamente relacionado à regressão de crista, que é uma maneira padrão de regularização de retração. Enquanto o uso de regressão de crista é geralmente uma idéia melhor, a PCR geralmente se comporta razoavelmente bem. Consulte Por que o encolhimento funciona? para a discussão geral sobre tradeoff de variação de polarização e sobre como o encolhimento pode ser benéfico.p n p ≈ n p > n
De certa forma, pode-se dizer que a regressão de crista e a PCR assumem que a maioria das informações sobre está contida nos grandes PCs de X , e essa suposição é frequentemente justificada.y X
Veja a resposta posterior de @cbeleites (+1) para alguma discussão sobre por que essa suposição é frequentemente necessária (e também este tópico mais recente: a redução de dimensionalidade quase sempre é útil para classificação? Para alguns comentários).
Hastie et al. em Os elementos de aprendizagem estatística (seção 3.4.1) comentam isso no contexto da regressão de cordilheira:
Veja minhas respostas nos seguintes tópicos para obter detalhes:
Bottom line
Para problemas de alta dimensão, o pré-processamento com PCA (que significa reduzir a dimensionalidade e manter apenas os principais PCs) pode ser visto como uma maneira de regularização e, muitas vezes, melhora os resultados de qualquer análise subsequente, seja um método de regressão ou de classificação. Mas não há garantia de que isso funcione, e muitas vezes existem abordagens de regularização melhores.
fonte
Além das respostas que já se concentram nas propriedades matemáticas, eu gostaria de comentar do ponto de vista experimental.
Resumo: os processos de geração de dados geralmente são otimizados de maneira a tornar os dados adequados para a regressão de componente principal (PCR) ou de mínimos quadrados parciais (PLS).
Sou químico analítico. Ao projetar um experimento / método para medir (regressão ou classificação) algo, utilizo meu conhecimento sobre aplicativos e instrumentos disponíveis para obter dados com uma boa relação sinal / ruído em relação à tarefa em questão. Isso significa que os dados que eu gero são projetados para ter uma grande covariância com a propriedade de interesse.
Isso leva a uma estrutura de variação na qual a variação interessante é grande e os PCs posteriores carregam apenas o ruído (pequeno).
Também prefiro métodos que produzam informações redundantes sobre a tarefa em questão, a fim de obter resultados mais robustos ou mais precisos. O PCA concentra canais de medição redundantes em um PC, o qual carrega muita variação e, portanto, é um dos primeiros PCs.
Se houver fatores de confusão conhecidos que levarão a uma grande variação que não está correlacionada com a propriedade de interesse, geralmente tentarei corrigi-los o máximo possível durante o pré-processamento dos dados: em muitos casos, esses fatores de confusão são conhecidos natureza física ou química, e esse conhecimento sugere maneiras apropriadas de corrigir os fatores de confusão. Por exemplo, eu medo os espectros Raman sob o microscópio. A intensidade deles depende da intensidade da luz do laser e da capacidade de focalizar o microscópio. Ambos levam a alterações que podem ser corrigidas pela normalização, por exemplo, para um sinal que é conhecido por ser constante.
Assim, grandes contribuidores de variação que não contribuem para a solução podem ter sido eliminados antes que os dados entrem no PCA, deixando uma variação principalmente significativa nos primeiros PCs.
Por último, mas não menos importante, há um pouco de profecia auto-realizável aqui: Obviamente, a PCR é feita com dados nos quais a suposição de que a informação que apresenta variação é grande faz sentido. Se, por exemplo, eu acho que poderia haver fatores de confusão importantes que eu não sei como corrigir, eu iria imediatamente para o PLS, que é melhor em ignorar grandes contribuições que não ajudam na tarefa de previsão.
fonte
O PCA às vezes é usado para corrigir problemas causados por variáveis colineares, de modo que a maior parte da variação no espaço X seja capturada pelos K componentes principais.
Mas esse problema matemático não é, obviamente, o mesmo que capturar a maioria das variações no espaço X, Y, de modo que a variação inexplicável seja a menor possível.
Os mínimos quadrados parciais tentam fazer isso no último sentido:
http://en.wikipedia.org/wiki/Partial_least_squares_regression
fonte
Como outros já apontaram, não há ligação direta entre os principais vetores próprios e o poder preditivo. Ao escolher o topo e usá-los como base, você retém alguma energia superior (ou variação ao longo desse eixo).
Pode ser que o eixo que explique a maior variação seja realmente útil para a previsão, mas em geral esse não é o caso.
fonte
Deixe-me oferecer uma explicação simples.
O PCA significa remover certos recursos intuitivamente. Isso diminui as chances de ajuste excessivo.
fonte