Lidando com regressores correlacionados

23

Em uma regressão linear múltipla com regressores altamente correlacionados, qual é a melhor estratégia a ser usada? É uma abordagem legítima adicionar o produto de todos os regressores correlacionados?

Ηλίας
fonte
1
Sinto muito, ver a resposta de @ Suncoolsu foi excluída. Ele e os comentários que se seguiram esclareceram a diferença entre multicolinearidade e mau condicionamento. Além disso, em um comentário, Suncoolsu apontou como a padronização preliminar pode ajudar na regressão polinomial. Se isso reaparecesse, eu votaria ;-).
whuber
@ :Λίας: É provável que o produto seja instável em muitas aplicações. Ele pode ser afetado por muitos zeros se os regressores individuais tiverem alguns zeros; é provável que seu valor absoluto tenha forte inclinação positiva, dando origem a alguns pontos de alta alavancagem; pode amplificar dados externos, especialmente discrepantes simultâneos, aumentando ainda mais sua alavancagem. Também pode ser um pouco difícil de interpretar, especialmente se os regressores já forem re-expressões das variáveis ​​originais (como logs ou raízes).
whuber

Respostas:

13

Os componentes principais fazem muito sentido ... matematicamente. No entanto, eu seria cauteloso em simplesmente usar algum truque matemático nesse caso e torcer para que eu não precisasse pensar no meu problema.

Eu recomendo pensar um pouco sobre que tipo de preditores tenho, qual é a variável independente, por que meus preditores estão correlacionados, se alguns dos meus preditores estão realmente medindo a mesma realidade subjacente (se sim, se posso apenas trabalhar com um medição única e qual dos meus preditores seria melhor para isso), para o que estou fazendo a análise - se não estou interessado em inferência, apenas em previsão, então eu poderia realmente deixar as coisas como estão, desde que sejam futuras valores preditores são semelhantes aos anteriores.

S. Kolassa - Restabelecer Monica
fonte
4
Completamente acordado, +1. Mas a caracterização do PCA como um "truque matemático" desvaloriza-o injustamente, IMHO. Se você concorda (não tenho certeza de que concorda) que a soma ou a média de grupos de regressores, como sugere Srikant, seriam aceitáveis, o PCA deve ser igualmente aceitável e geralmente melhora o ajuste. Além disso, os principais componentes podem fornecer informações sobre quais grupos de preditores estão correlacionados e como eles se correlacionam: essa é uma excelente ferramenta para o pensamento que você está defendendo.
whuber
2
@whuber, eu vejo e concordo com o seu ponto de vista, e não quero menosprezar o PCA, então definitivamente +1. Eu só queria salientar que cegamente utilizando PCA sem olhar e pensar sobre o problema subjacente (que ninguém aqui está advogando) iria me deixar com um sentimento ruim ...
S. Kolassa - Reintegrar Monica
11

Você pode usar componentes principais ou regressão de crista para lidar com esse problema. Por outro lado, se você tiver duas variáveis ​​que são correlacionadas o suficiente para causar problemas com a estimativa de parâmetros, você certamente poderá descartar uma das duas sem perder muito em termos de previsão - porque as duas variáveis ​​carregam a mesma informação . Obviamente, isso só funciona quando o problema é devido a dois independentes altamente correlacionados. Quando o problema envolve mais de duas variáveis ​​juntas quase colineares (duas das quais podem ter apenas correlações moderadas), você provavelmente precisará de um dos outros métodos.

Brett
fonte
2
(+1) Agora, o problema é que o OP não indicou quantas variáveis ​​entram no modelo, porque, caso sejam numerosas, seria melhor fazer a seleção de encolhimento e de variável, por exemplo, através do critério elasticnet (que é a combinação penalidades de Lasso e Ridge).
chl
3

Aqui está outro pensamento inspirado na resposta de Stephan :

Se alguns de seus regressores correlacionados estiverem significativamente relacionados (por exemplo, são diferentes medidas de inteligência, como verbais, matemáticas etc.), você poderá criar uma única variável que mede a mesma variável usando uma das seguintes técnicas:

  • Soma os regressores (apropriado se os regressores forem componentes de um todo, por exemplo, QI verbal + QI matemático = QI geral)

  • Média dos regressores (apropriado se os regressores estiverem medindo a mesma construção subjacente, por exemplo, tamanho do sapato esquerdo, tamanho do sapato direito para medir o comprimento dos pés)

  • Análise fatorial (para contabilizar erros nas medições e extrair um fator latente)

Você pode descartar todos os regressores correlacionados e substituí-los pela variável que emerge da análise acima.

Comunidade
fonte
1
Isso faz sentido se todos os regressores forem medidos na mesma escala. Na psicologia, várias subescalas são frequentemente medidas em escalas diferentes (e ainda correlacionadas); portanto, uma soma ou média ponderada (que é realmente a mesma aqui) seria apropriada. E, é claro, pode-se ver o PCA como fornecendo exatamente esse tipo de ponderação calculando eixos de variação máxima.
S. Kolassa - Restabelece Monica
2

Eu estava prestes a dizer a mesma coisa que Stephan Kolassa acima (então votei na sua resposta). Eu apenas acrescentaria que, às vezes, a multicolinearidade pode ser devida ao uso de variáveis ​​extensas, todas altamente correlacionadas com alguma medida de tamanho, e as coisas podem ser melhoradas usando variáveis ​​intensivas, ou seja, dividindo tudo por alguma medida de tamanho. Por exemplo, se suas unidades são países, você pode dividir por população, área ou PNB, dependendo do contexto.

Ah - e responder à segunda parte da pergunta original: não consigo pensar em nenhuma situação ao adicionar o produto de todos os regressores correlacionados seria uma boa idéia. Como isso ajudaria? O que isso significaria?

uma parada
fonte
Minha idéia inicial era para adicionar tomada em conta a interacção entre pares dos regressores
Ηλίας
Geralmente, é uma boa idéia levar em consideração a interação pareada. Mas nem todos: você precisa pensar no que faz sentido!
Kjetil b halvorsen
1

Não sou especialista nisso, mas meu primeiro pensamento seria executar uma análise de componente principal nas variáveis ​​preditivas e, em seguida, usar os componentes principais resultantes para prever sua variável dependente.

Mike Lawrence
fonte
kk
p
@chl Bom ponto. Mas como os componentes principais são combinações lineares, é fácil (embora às vezes seja um pouco complicado) compor o modelo de regressão ajustado (= uma transformação linear) com a projeção nos componentes (= outra transformação linear) para obter um modelo linear interpretável envolvendo todas as variáveis ​​originais. Isso é um pouco semelhante às técnicas de ortogonalização. Observe, também, que as últimas propostas de Srikant (soma ou média dos regressores) aproximam-se essencialmente do principal vetor próprio, mas induzem dificuldades explicativas semelhantes.
whuber
@whuber Sim, concordo com os dois pontos. Eu usei extensivamente a regressão PLS e a CCA, portanto, neste caso, temos que lidar com combinações lineares de ambos os lados (st. Um critério máximo de covariância ou correlação); com um grande número de preditores, interpretar os vetores canônicos é doloroso; portanto, apenas analisamos as variáveis ​​que mais contribuem. Agora, posso imaginar que não haja muitos preditores para que todos os seus argumentos (@Stephan, @Mike) façam sentido.
chl
-1

X

xEujstumandumardEuzed=xEuj-x.j¯sj

Este não é um remédio, mas definitivamente um passo na direção certa.

suncoolsu
fonte
8
Transformações lineares (como essas) nunca alteram os coeficientes de correlação. O objetivo da padronização é melhorar o condicionamento da matriz normal.
whuber
1
A padronização das variáveis ​​não afetará as correlações entre as variáveis ​​independentes e "não reduzirá o efeito da correlação" de nenhuma maneira que eu possa pensar em relação a esse problema.
Brett
2
@Brett, um exemplo típico em que a padronização ajuda é a regressão polinomial . É sempre recomendável padronizar os regressores. A padronização não altera a matriz de correlação, mas torna a matriz var cov (que agora é a matriz de correlação) bem comportada (chamada condicionamento por @whuber apontando para o número de condição da matriz, IMHO).
suncoolsu
Acordado. A centralização é útil ao inserir termos de ordem superior, como polinômios ou termos de interação. Esse não parece ser o caso aqui e, de outra forma, não ajudará no problema dos preditores correlacionados.
Brett
Excluí-o porque não queria confundir as pessoas com respostas erradas. Provavelmente, os moderadores voltaram à tona.
suncoolsu