Eu tenho 2 perguntas simples sobre regressão linear:
- Quando é aconselhável padronizar as variáveis explicativas?
- Uma vez que a estimativa é realizada com valores padronizados, como se pode prever com novos valores (como se deve padronizar os novos valores)?
Algumas referências seriam úteis.
Respostas:
Embora a terminologia seja um tópico controverso, prefiro chamar variáveis "explicativas", variáveis "preditoras".
Quando padronizar os preditores:
Penso também que confiar em variáveis padronizadas pode desviar a atenção do fato de não termos pensado em como tornar a métrica de uma variável mais significativa para o leitor.
Andrew Gelman tem muito a dizer sobre o assunto. Veja sua página sobre padronização, por exemplo, e Gelman (2008, Stats Med, FREE PDF) em particular.
Previsão baseada na padronização:
fonte
Deixe-me responder com uma resposta curta, caso possa se sobrepor à excelente resposta escrita anteriormente.
Sempre padronizado, que permite interpretar a regressão, especialmente os coeficientes da regressão.
Para os novos dados que não são padronizados, recomendo que você armazene os valores usados para cada variável a ser padronizada, como o máximo e o mínimo, e faça a mesma transformação que fez no conjunto de dados do furo antes, mas apenas para isso instância única.
fonte