Padronização de variáveis ​​e colinearidade

10

A colinearidade pode apresentar certos problemas em vários tipos de problemas de regressão. Em particular, pode fazer com que as estimativas de parâmetros tenham alta variação e sejam instáveis.

Vários métodos foram propostos para lidar com isso, incluindo regressão de crista, regressão parcial de mínimos quadrados, regressão de componentes principais, queda de variáveis ​​e obtenção de mais dados.

Um método controverso é padronizar ou dimensionar as variáveis ​​independentes, com vários especialistas dizendo que é uma idéia boa (por exemplo, Garcia) ou ruim (por exemplo, Belsley). A questão de Belsley parece ser (em termos não técnicos) que a alteração dos IVs apenas empurra o problema para baixo do tapete. Mas outros especialistas parecem não concordar. E os autores tendem a se aquecer bastante na defesa de suas próprias posições.

Quando fiz minha dissertação (sobre diagnóstico de colinearidade), achei os argumentos de Belsley convincentes, mas isso foi há muito tempo (me formei em 1999).

Estou procurando orientação especializada ou qualquer artigo de revisão atual que seja imparcial.

Peter Flom
fonte
3
Não tenho referências modernas para você - minha principal autoridade ainda é Belsley Kuh & Welsch 1981 - mas posso dizer que a experiência recente em consertar certos softwares de regressão me convenceu de que há realmente algum valor em uma padronização preliminar. Na aplicação, uma variável era o tempo que, nesse Rcontexto, é representado em segundos desde o início de 1970. Como tal, tendia a ser nove ordens de magnitude maiores que todas as covariáveis. A simples padronização do tempo resolveu problemas graves de ponto flutuante que ocorrem no otimizador de probabilidade.
whuber
6
Conceitualmente (não numericamente), ainda acho que Arthur Goldberger estava no local: "Os textos econométricos dedicam muitas páginas ao problema da multicolinearidade na regressão múltipla, mas eles dizem pouco sobre o problema quase análogo do tamanho pequeno da amostra na estimativa de uma média univariada. Talvez esse desequilíbrio é atribuível à falta de um nome polissilábico exótico para 'tamanho pequeno da amostra'. Nesse caso, podemos remover esse impedimento introduzindo o termo micronumerosidade "
CloseToC
1
@ Peter Flom: Coerente com o comentário de Whuber, lembro-me vagamente de que a padronização, mesmo fazendo apenas com que os preditores tivessem média zero, ajudou muito.
mlofton

Respostas:

4

Não estava tão claro para mim que tipo de padronização era e, enquanto procurava pela história, peguei duas referências interessantes.

Este artigo recente tem uma visão geral histórica na introdução:

García, J., Salmerón, R., García, C. e López Martín, MDM (2016). Padronização de variáveis ​​e diagnóstico de colinearidade na regressão de crista. International Statistical Review, 84 (2), 245-266

Eu encontrei outro artigo interessante que afirma que mostra que a padronização, ou centralização, não tem efeito algum.

Echambadi, R., & Hess, JD (2007). A centralização da média não alivia problemas de colinearidade em modelos de regressão múltipla moderados. Marketing Science, 26 (3), 438-445.


Para mim, todas essas críticas parecem um pouco erradas sobre a idéia de centralizar.

A única coisa que Echambadi e Hess mostram é que os modelos são equivalentes e que você pode expressar os coeficientes do modelo centrado em termos dos coeficientes do modelo não centrado e vice-versa (resultando em variação / erro semelhante dos coeficientes )

O resultado de Echambadi e Hess é um pouco trivial e acredito que isso (essas relações e equivalências entre os coeficientes) não é reivindicado como falso por ninguém. Ninguém afirmou que essas relações entre os coeficientes não são verdadeiras. E não é o ponto de centralizar variáveis.

tY

"Se você expressar a precisão dos coeficientes para as dependências linear e quadrática no tempo, elas terão mais variação quando você usar o tempo variando de 1998 a 2018 em vez de um tempo centralizado variando de -10 a 10" .tt

Y=a+bt+ct2

versus

Y=a+b(tT)+c(tT)2

Obviamente, esses dois modelos são equivalentes e, em vez de centralizar, você pode obter exatamente o mesmo resultado (e, portanto, o mesmo erro dos coeficientes estimados) calculando os coeficientes como

a=abT+cT2b=b2cTc=c

Além disso, quando você faz ANOVA ou usa expressões como , não haverá diferença.R2

No entanto, esse não é o ponto central da média. O ponto de média-centralização é que às vezes se quer comunicar os coeficientes e seus intervalos de variância / precisão ou de confiança estimados, e para aqueles casos que não importa como o modelo é expresso.

Exemplo: um físico deseja expressar alguma relação experimental para algum parâmetro X como uma função quadrática da temperatura.

  T   X
  298 1230
  308 1308
  318 1371
  328 1470
  338 1534
  348 1601
  358 1695
  368 1780
  378 1863
  388 1940
  398 2047

não seria melhor relatar os intervalos de 95% para coeficientes como

                 2.5 %      97.5 %

(Intercept)      1602       1621
T-348               7.87       8.26
(T-348)^2           0.0029     0.0166

ao invés de

                  2.5 %     97.5 %

(Intercept)       -839       816
T                   -3.52      6.05
T^2                  0.0029    0.0166

Neste último caso, os coeficientes serão expressos por margens de erro aparentemente grandes (mas não revelando nada sobre o erro no modelo) e, além disso, a correlação entre a distribuição do erro não será clara (no primeiro caso, o erro em os coeficientes não serão correlacionados).

Se alguém afirmar, como Echambadi e Hess, que as duas expressões são apenas equivalentes e a centralização não importa, então deveríamos (como conseqüência usar argumentos semelhantes) também reivindicar que expressões para coeficientes de modelo (quando não há intercepto natural e a escolha é arbitrária) em termos de intervalos de confiança ou erro padrão nunca fazem sentido.

Nesta pergunta / resposta, é mostrada uma imagem que também apresenta essa ideia de como os intervalos de confiança de 95% não dizem muito sobre a certeza dos coeficientes (pelo menos não intuitivamente) quando os erros nas estimativas dos coeficientes são correlacionados.

imagem

Sextus Empiricus
fonte
Obrigado! Eu tinha visto Garcia, mas não o outro artigo que você mencionou.
Peter Flom