Regressão: transformando variáveis

Ao transformar variáveis, você precisa usar a mesma transformação? Por exemplo, posso escolher variáveis transformadas de maneira diferente, como em:

Seja idade, duração do emprego, duração da residência e renda. $x_1,x_2,x_3$

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

Ou você deve ser consistente com suas transformações e usar o mesmo? Como em:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3)

Meu entendimento é que o objetivo da transformação é resolver o problema da normalidade. Olhando para os histogramas de cada variável, podemos ver que eles apresentam distribuições muito diferentes, o que me levaria a acreditar que as transformações necessárias são diferentes em uma base variável por variável.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7])

texto alternativo

$\log(x_n + 1)$ $x_n$ $0$ $0$

## R Code 
plot(df[1:7])

texto alternativo

r regression logistic data-transformation Brandon Bertelsen
fonte

Um transforma a variável dependente para alcançar simetria aproximada e homocedasticidade dos resíduos . As transformações das variáveis independentes têm um propósito diferente: afinal, nessa regressão, todos os valores independentes são tomados como fixos, não aleatórios, de modo que a "normalidade" é inaplicável. O principal objetivo dessas transformações é alcançar relacionamentos lineares com a variável dependente (ou, realmente, com seu logit). (Esse objetivo ultrapassa os auxiliares, como reduzir o excesso de alavancagemou obter uma interpretação simples dos coeficientes.) Esses relacionamentos são uma propriedade dos dados e dos fenômenos que os produziram; portanto, você precisa da flexibilidade de escolher reexpressões apropriadas de cada uma das variáveis separadamente das outras. Especificamente, não é apenas um problema usar um log, uma raiz e um recíproco, como é bastante comum. O princípio é que (geralmente) não há nada de especial sobre como os dados são originalmente expressos; portanto, você deve permitir que eles sugeram reexpressões que levem a modelos eficazes, precisos, úteis e (se possível) teoricamente justificados.

Os histogramas - que refletem as distribuições univariadas - geralmente sugerem uma transformação inicial, mas não são dispostos. Acompanhe-os com matrizes de dispersão para que você possa examinar os relacionamentos entre todas as variáveis.

$\log(x + c)$ $c$ $x$ $\log(x)$ $x$ $z_x$ $x$ $x = 0$ e é 0 caso contrário. Esses termos contribuem com uma soma

β \log (x) + β_{0} z_{x}

$\beta \log(x) + \beta_0 z_x$

$x \gt 0$ $z_x = 0$ $\beta \log(x)$ $x = 0$ $\log(x)$ $z_x = 1$ $\beta_0$ $\beta_0$ $x = 0$ $\beta$ $\log(x)$

whuber
fonte

Descrição muito útil, obrigado pela direção e pelos detalhes da minha subquestão também.

precisa

pareonline.net/getvn.asp?v=15&n=12 Osborne (2002) recomenda ancorar o valor mínimo em uma distribuição em exatamente 1,0. pareonline.net/getvn.asp?v=8&n=6 #

Chris

1

$1$

1

$1$

Em um dos meus conjuntos de dados em que estou trabalhando, notei que se eu trocasse a variável de resposta dependente para ancorar em 1 e usasse uma transformação de caixa cox para eliminar a inclinação, a transformação resultante seria enfraquecida, levando credibilidade à sua crítica. ;)

Chris

β_{0}

$\beta_0$

z_{x}

$z_x$

Regressão: transformando variáveis

Respostas: