Quando e como usar variáveis ​​explicativas padronizadas em regressão linear

37

Eu tenho 2 perguntas simples sobre regressão linear:

  1. Quando é aconselhável padronizar as variáveis ​​explicativas?
  2. Uma vez que a estimativa é realizada com valores padronizados, como se pode prever com novos valores (como se deve padronizar os novos valores)?

Algumas referências seriam úteis.

teucer
fonte
3
Se o seu software for bem escrito, ele padroniza automaticamente internamente para evitar problemas de precisão numérica. Você não deveria ter que fazer nada de especial.
whuber
11
Observe que o seguinte segmento está relacionado e será do seu interesse: Quando você deve centralizar seus dados e quando deve padronizar? .
gung - Restabelece Monica

Respostas:

26

Embora a terminologia seja um tópico controverso, prefiro chamar variáveis ​​"explicativas", variáveis ​​"preditoras".

Quando padronizar os preditores:

  • Muitos softwares para a execução de regressão linear múltipla fornecerão coeficientes padronizados equivalentes a coeficientes não padronizados, nos quais você padroniza manualmente os preditores e a variável de resposta (é claro, parece que você está falando apenas de preditores de padronização).
  • Minha opinião é que a padronização é uma ferramenta útil para tornar as equações de regressão mais significativas. Isso é particularmente verdadeiro nos casos em que a métrica da variável não tem significado para a pessoa que interpreta a equação de regressão (por exemplo, uma escala psicológica em uma métrica arbitrária). Também pode ser usado para facilitar a comparabilidade da importância relativa das variáveis ​​preditoras (embora existam outras abordagens mais sofisticadas para avaliar a importância relativa; veja meu post para uma discussão ). Nos casos em que a métrica tem significado para a pessoa que interpreta a equação de regressão, os coeficientes não padronizados geralmente são mais informativos.
  • Penso também que confiar em variáveis ​​padronizadas pode desviar a atenção do fato de não termos pensado em como tornar a métrica de uma variável mais significativa para o leitor.

  • Andrew Gelman tem muito a dizer sobre o assunto. Veja sua página sobre padronização, por exemplo, e Gelman (2008, Stats Med, FREE PDF) em particular.

Previsão baseada na padronização:

  • Eu não usaria coeficientes de regressão padronizados para previsão.
  • Você sempre pode converter coeficientes padronizados em coeficientes não padronizados se souber a média e o desvio padrão da variável preditora na amostra original.
Jeromy Anglim
fonte
3
+1, mas por que você não usaria coeficientes de regressão não padronizados para previsão?
onestop
11
(+1) Sobre a avaliação da importância variável, acho que o pacote relaimpo R faz um bom trabalho (mas consulte Introdução a uma abordagem moderna da regressão ). Também houve um belo artigo de David V. Budescu sobre análise de dominância (disponível gratuitamente mediante solicitação).
chl
@onestep oops. erro de digitação. Isso mudou agora.
Jeromy Anglim
11
@ Jeromy, você poderia explicar por que não usaria coeficientes de regressão padronizados para previsão?
Michael Bishop
3
@ MichaelBishop Estou pensando em contextos em que você pega seu modelo de regressão e o aplica para prever dados de amostra. Em geral, você deseja previsões não padronizadas. Além disso, os meios e os desvios padrão podem mudar nas amostras; o uso de preditores não padronizados deve fornecer resultados mais significativos.
Jeromy Anglim 02/12/19
-4

Deixe-me responder com uma resposta curta, caso possa se sobrepor à excelente resposta escrita anteriormente.

  1. Sempre padronizado, que permite interpretar a regressão, especialmente os coeficientes da regressão.

  2. Para os novos dados que não são padronizados, recomendo que você armazene os valores usados ​​para cada variável a ser padronizada, como o máximo e o mínimo, e faça a mesma transformação que fez no conjunto de dados do furo antes, mas apenas para isso instância única.

mariana soffer
fonte