Regressão: transformando variáveis

41

Ao transformar variáveis, você precisa usar a mesma transformação? Por exemplo, posso escolher variáveis ​​transformadas de maneira diferente, como em:

Seja idade, duração do emprego, duração da residência e renda.x1,x2,x3

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

Ou você deve ser consistente com suas transformações e usar o mesmo? Como em:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 

Meu entendimento é que o objetivo da transformação é resolver o problema da normalidade. Olhando para os histogramas de cada variável, podemos ver que eles apresentam distribuições muito diferentes, o que me levaria a acreditar que as transformações necessárias são diferentes em uma base variável por variável.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7]) 

texto alternativo

log(xn+1)xn00

## R Code 
plot(df[1:7])

texto alternativo

Brandon Bertelsen
fonte

Respostas:

59

Um transforma a variável dependente para alcançar simetria aproximada e homocedasticidade dos resíduos . As transformações das variáveis independentes têm um propósito diferente: afinal, nessa regressão, todos os valores independentes são tomados como fixos, não aleatórios, de modo que a "normalidade" é inaplicável. O principal objetivo dessas transformações é alcançar relacionamentos lineares com a variável dependente (ou, realmente, com seu logit). (Esse objetivo ultrapassa os auxiliares, como reduzir o excesso de alavancagemou obter uma interpretação simples dos coeficientes.) Esses relacionamentos são uma propriedade dos dados e dos fenômenos que os produziram; portanto, você precisa da flexibilidade de escolher reexpressões apropriadas de cada uma das variáveis ​​separadamente das outras. Especificamente, não é apenas um problema usar um log, uma raiz e um recíproco, como é bastante comum. O princípio é que (geralmente) não há nada de especial sobre como os dados são originalmente expressos; portanto, você deve permitir que eles sugeram reexpressões que levem a modelos eficazes, precisos, úteis e (se possível) teoricamente justificados.

Os histogramas - que refletem as distribuições univariadas - geralmente sugerem uma transformação inicial, mas não são dispostos. Acompanhe-os com matrizes de dispersão para que você possa examinar os relacionamentos entre todas as variáveis.


log(x+c)cxlog(x)xzxxx=0e é 0 caso contrário. Esses termos contribuem com uma soma

βlog(x)+β0zx

x>0zx=0βlog(x)x=0log(x)zx=1β0β0x=0βlog(x)

whuber
fonte
1
Descrição muito útil, obrigado pela direção e pelos detalhes da minha subquestão também.
precisa
pareonline.net/getvn.asp?v=15&n=12 Osborne (2002) recomenda ancorar o valor mínimo em uma distribuição em exatamente 1,0. pareonline.net/getvn.asp?v=8&n=6 #
Chris
1
11
1
Em um dos meus conjuntos de dados em que estou trabalhando, notei que se eu trocasse a variável de resposta dependente para ancorar em 1 e usasse uma transformação de caixa cox para eliminar a inclinação, a transformação resultante seria enfraquecida, levando credibilidade à sua crítica. ;)
Chris
1
β0zx