As variáveis de deslocamento / dimensionamento não afetam sua correlação com a resposta
Para ver por que isso é verdade, suponha que a correlação entre e X seja ρ . Então a correlação entre Y e ( X - a ) / b éYXρY( X- a ) / b
c o v (Y, ( X- a ) / b )S D ((X- a ) / b ) ⋅ S D ( Y)= c o v ( Y, X/ b)S D (X/ b)⋅ S D (Y)= 1b⋅ c o v ( Y, X)1 1bS D (X) ⋅ S D ( Y)= ρ
que decorre da definição de correlação e três fatos:
c o v (Y, X+ a ) = c o v ( Y, X) + c o v ( Y, Um )= 0= c o v ( Y, X)
c o v (Y, um X) = a c o v ( Y, X)
S D (aX) = a ⋅ S D ( X)
Portanto, em termos de ajuste do modelo (por exemplo, ou os valores ajustados), deslocando ou escalar suas variáveis (por exemplo, colocá-los na mesma escala) não vai mudar o modeloR2 , uma vez que coeficientes de regressão linear estão relacionados com as correlações entre variáveis. Isso mudará apenas a escala dos seus coeficientes de regressão , que devem ser lembrados quando você estiver interpretando a saída se optar por transformar seus preditores.
Edit: O acima assumiu que você está falando de regressão comum com a interceptação. Mais alguns pontos relacionados a isso (obrigado @cardinal):
A interceptação pode mudar quando você transforma suas variáveis e, como @cardinal aponta nos comentários, os coeficientes mudam quando você muda suas variáveis se você omitir a interceptação do modelo, embora eu assuma que você não fará isso a menos que tenha uma boa razão (veja, por exemplo, esta resposta ).
Se você estiver regularizando seus coeficientes de alguma forma (por exemplo, Lasso, regressão de crista), a centralização / redimensionamento afetará o ajuste. Por exemplo, se você estiver penalizando (a penalidade de regressão da crista), não poderá recuperar um ajuste equivalente após a padronização, a menos que todas as variáveis estivessem na mesma escala em primeiro lugar, ou seja, não há múltiplo constante que recuperar a mesma penalidade.∑ β2Eu
Sobre quando / por que um pesquisador pode querer transformar preditores
Uma circunstância comum (discutida na resposta subsequente de @Paul) é que os pesquisadores padronizarão seus preditores para que todos os coeficientes fiquem na mesma escala. Nesse caso, o tamanho das estimativas pontuais pode dar uma idéia aproximada de quais preditores têm o maior efeito depois que a magnitude numérica do preditor for padronizada.
Outro motivo pelo qual um pesquisador pode gostar de dimensionar variáveis muito grandes é o de que os coeficientes de regressão não estejam em uma escala extremamente pequena. Por exemplo, se você quiser examinar a influência do tamanho da população de um país na taxa de criminalidade (não poderia pensar em um exemplo melhor), convém medir o tamanho da população em milhões, e não em suas unidades originais, uma vez que o coeficiente pode ser algo como ..00000001
A chamada "normalização" é uma rotina comum para a maioria dos métodos de regressão. Existem duas maneiras:
Como a regressão linear é muito sensível aos intervalos de variáveis, eu geralmente sugeriria normalizar todas as variáveis se você não tiver conhecimento prévio sobre a dependência e esperar que todas as variáveis sejam relativamente importantes.
O mesmo vale para as variáveis de resposta, embora não seja muito importante para elas.
Por que fazer normalização ou padronização? Principalmente para determinar o impacto relativo de diferentes variáveis no modelo. Isso pode ser alcançado se todas as variáveis estiverem nas mesmas unidades.
Espero que isto ajude!
fonte
x1,x2,y
summary(lm(y~x1+x2))$r.sq
summary(lm(y~scale(x1)+scale(x2)))$r.sq