Atualmente, estou fazendo minha primeira aula de regressão linear aplicada no nível de pós-graduação e estou lutando com transformações de variáveis preditivas em regressão linear múltipla. O texto que estou usando, Kutner e outros "Modelos Estatísticos Lineares Aplicados", não parece cobrir a pergunta que estou tendo. (além de sugerir que existe um método de Box-Cox para transformar múltiplos preditores).
Quando confrontados com uma variável de resposta e várias variáveis preditivas, que condições se esforça para atender a cada variável preditora? Entendo que, no final das contas, estamos procurando constância da variação de erros e erros normalmente distribuídos (pelo menos nas técnicas ensinadas até agora). Tive muitos exercícios de volta, onde a solução era, por exemplo y ~ x1 + (1/x2) + log(x3)
, onde um ou mais preditores foram transformados.
Eu entendi o raciocínio sob regressão linear simples, pois era fácil olhar para y ~ x1 e os diagnósticos relacionados (gráficos qq de resíduos, resíduos vs. y, resíduos vs. x, etc) e testar para verificar se y ~ log ( x1) se encaixam melhor em nossas suposições.
Existe um bom lugar para começar a entender quando transformar um preditor na presença de muitos preditores?
Agradeço antecipadamente. Matt