Como usar componentes principais como preditores no GLM?

9

Como eu usaria a saída de uma análise de componentes principais (PCA) em um modelo linear generalizado (GLM), assumindo que o PCA é usado para seleção de variáveis para o GLM?

Esclarecimento: Eu quero usar o PCA para evitar o uso de variáveis correlacionadas no GLM. No entanto, o PCA me fornece resultados como .2*variable1+.5*variable3etc. Estou acostumado a apenas colocar as variáveis 1 e 3 no GLM. Então, como o PCA me fornece uma combinação linear, devo, por exemplo, colocá-lo no GLM como uma nova variável (para explicar a variação sistemática na resposta das variáveis 1 e 3)?

pca generalized-linear-model feature-selection ciel
fonte

12

É possível e algumas vezes apropriado usar um subconjunto dos componentes principais como variáveis explicativas em um modelo linear, em vez das variáveis originais. Os coeficientes resultantes precisam ser transformados novamente para aplicar às variáveis originais. Os resultados são tendenciosos, mas podem ser superiores a técnicas mais diretas.

O PCA fornece um conjunto de componentes principais que são combinações lineares das variáveis originais. Se você tem $k$ variáveis originais você ainda tem $k$ componentes principais no final, mas eles foram rotacionados através $k$ espaço tridimensional para que sejam ortogonais (isto é, não correlacionados) entre si (é mais fácil pensar com apenas duas variáveis).

O truque para usar o PCA resulta em um modelo linear é que você decide eliminar um determinado número dos componentes principais. Essa decisão é baseada em critérios semelhantes aos processos "comuns" de seleção de variáveis de arte negra para a construção de modelos.

O método é usado para lidar com a multicolinearidade. É razoavelmente comum na regressão linear com uma função de resposta normal e vínculo de identidade do preditor linear para a resposta; mas menos comum com um modelo linear generalizado. Há pelo menos um artigo sobre os problemas na web.

Não conheço nenhuma implementação de software fácil de usar. Seria bastante simples executar o PCA e usar os componentes principais resultantes como suas variáveis explicativas em um modelo linear generalizado; e depois voltar à escala original. Estimar a distribuição (variação, tendência e forma) de seus estimadores que fizeram isso seria complicado, no entanto; a saída padrão do seu modelo linear generalizado estará errada, pois pressupõe que você esteja lidando com observações originais. Você pode criar um bootstrap em torno de todo o procedimento (PCA e glm combinados), o que seria viável no R ou no SAS.

Peter Ellis
fonte

5

Minha resposta não é para a pergunta original, mas comentários sobre sua abordagem.

Primeiro aplique o PCA, depois execute o modelo linear generalizado não é recomendado. O motivo é que o PCA selecionará a importância da variável por "variação variável", mas não "como a variável está correlacionada com o destino da previsão". Em outras palavras, a "seleção de variável" pode ser totalmente enganosa, que seleciona variáveis não importantes.

Aqui está um exemplo: shows futuros à esquerda x1são importantes para classificar dois tipos de pontos. Mas o PCA mostra o oposto.

Detalhes podem ser encontrados na minha resposta aqui. Como decidir entre PCA e regressão logística?

Haitao Du
fonte

3

Eu sugiro que você dê uma olhada neste artigo. Ele faz um bom trabalho, mostrando a relação entre as distribuições familiares gaussianas e os sistemas de aprendizagem semelhantes a PCA.

http://papers.nips.cc/paper/2078-a-generalization-of-principal-components-analysis-to-the-exponential-family.pdf

EDITAR

Sinopse: enquanto muitos pensam no PCA a partir da interpretação geométrica de encontrar os vetores ortogonais em um conjunto de dados mais responsável pela variação e, em seguida, fornecer parâmetros para reorientar corretamente o espaço de alguém para esses vetores, este artigo constrói o PCA usando funções de probabilidade exponencial no contexto de modelos lineares generalizados e oferece uma extensão mais poderosa do PCA para outras funções de probabilidade dentro da família exponencial. Além disso, eles constroem um algoritmo de aprendizado semelhante ao PCA usando divergências bregman. É bastante fácil de seguir e, para você, parece que pode ajudá-lo a entender o link entre o PCA e os modelos lineares generalizados.

citação :

Collins, Michael et al. "Uma generalização da análise de componentes principais para a família exponencial". Sistemas de processamento de informações neurais

themantalope
fonte

Oi Gung, desculpe por isso, eu entendo totalmente!

themantalope

Como usar componentes principais como preditores no GLM?

Respostas: