Interpretação do preditor e / ou resposta transformada em log

46

Gostaria de saber se faz diferença na interpretação se apenas as variáveis ​​dependentes, dependentes e independentes ou apenas as independentes são transformadas em log.

Considere o caso de

log(DV) = Intercept + B1*IV + Error 

Eu posso interpretar o IV como o aumento percentual, mas como isso muda quando eu tenho

log(DV) = Intercept + B1*log(IV) + Error

ou quando eu tiver

DV = Intercept + B1*log(IV) + Error

?

acima
fonte
1
Sinto que a interpretação do "aumento percentual" não está correta, mas não tenho o suficiente para dizer exatamente o porquê. Espero que alguém possa ajudar .... Além disso, eu recomendaria modelar usando logs se eles ajudarem a estabelecer melhor um relacionamento XY, mas relatando exemplos selecionados desse relacionamento usando as variáveis ​​originais. Especialmente se estiver lidando com um público que não é muito tecnicamente experiente.
rolando2
3
@ rolando2: Eu discordo. Se um modelo válido exigir transformação, uma interpretação válida geralmente dependerá dos coeficientes do modelo transformado. Resta o ônus do investigador comunicar adequadamente o significado desses coeficientes ao público. É por isso que, é claro, recebemos quantias tão grandes que os salários precisam ser transformados em log em primeiro lugar.
jthetzel
1
@BigBucks: Bem, olhe dessa maneira. Suponha que seu público simplesmente não entenda o que você quer dizer quando explica que para cada alteração de 1 no log (base 10) de X, Y muda em b. Mas suponha que eles possam entender três exemplos usando valores X de 10, 100 e 1000. Nesse momento, provavelmente entenderão a natureza não-linear do relacionamento. Você ainda pode relatar o b geral, baseado em log, mas dar esses exemplos pode fazer toda a diferença.
Rolando2
1
.... Embora agora que eu tenha lido sua ótima explicação abaixo, talvez o uso desses "modelos" possa ajudar muitos de nós a esclarecer esse tipo de problema no entendimento.
Rolando2
1
Os leitores aqui também podem querer examinar esses tópicos intimamente relacionados: como interpretar coeficientes transformados logaritmicamente em regressão linear e quando e por que fazer o log de uma distribuição de números .
gung - Reintegrar Monica

Respostas:

42

Charlie fornece uma explicação correta e agradável. O site de computação estatística da UCLA tem mais alguns exemplos: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm e http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm

Apenas para complementar a resposta de Charlie, abaixo estão interpretações específicas de seus exemplos. Como sempre, interpretações de coeficientes assumem que você pode defender seu modelo, que os diagnósticos de regressão são satisfatórios e que os dados são de um estudo válido.

Exemplo A : Nenhuma transformação

DV = Intercept + B1 * IV + Error 

"Um aumento de unidade em IV está associado a um B1aumento de ( ) unidade em DV".

Exemplo B : Resultado transformado

log(DV) = Intercept + B1 * IV + Error 

"Um aumento de unidade IV está associado a um B1 * 100aumento de ( ) por cento no DV".

Exemplo C : Exposição transformada

DV = Intercept + B1 * log(IV) + Error 

"Um aumento de 1% no IV está associado a um B1 / 100aumento de ( ) unidade no DV".

Exemplo D : Resultado transformado e exposição transformada

log(DV) = Intercept + B1 * log(IV) + Error 

"Um aumento de 1% no IV está associado a um B1aumento de ( )% no DV".

jthetzel
fonte
1
Essas interpretações são válidas independentemente da base do logaritmo?
precisa saber é o seguinte
Exemplo B: Log transformado de resultado (DV) = Interceptação + B1 * IV + Erro "Um aumento de unidade IV está associado a um aumento de (B1 * 100) por cento em DV Nesse caso, como você faz se deseja 30% de Obrigado por sua resposta
Antouria
Portanto, um DV ~ B1 * log (IV) é um bom modelo para variável dependente contínua delimitada a zero?
Bakaburg
2
Eu posso estar confuso. Se você transformar o resultado do log, deverá reexponder o coeficiente para encontrar a diferença multiplicativa. Interpretá-lo na escala de logaritmo só funciona como uma aproximação quando a proporção está muito próxima de 1. #
AdamO
Os links estão quebrados.
Nick Cox
22

β1=registro(y)registro(x).
registro(y)y=1y
registro(y)=yy.
yx

β1yx

Seguindo a mesma lógica, para o modelo de log de nível, temos

β1=yregistro(x)=100y100×registro(x).
β1/100yx
Charlie
fonte
registro(y)=yy?
1
registro(y)yyyy1-y0 0yyy
7

O principal objetivo da regressão linear é estimar uma diferença média de resultados comparando níveis adjacentes de um regressor. Existem muitos tipos de meios. Estamos mais familiarizados com a média aritmética.

UMAM(X)=(X1+X2+...+Xn)n

A AM é o que é estimado usando OLS e variáveis ​​não transformadas. A média geométrica é diferente:

GM(X)=(X1×X2×...×Xn)n=exp(UMAM(registro(X))

insira a descrição da imagem aqui

Praticamente uma diferença GM é uma diferença multiplicativa: você paga X% de um prêmio em juros ao assumir um empréstimo, seus níveis de hemoglobina diminuem X% após o início da metformina, a taxa de falha das molas aumenta X% como uma fração da largura. Em todos esses casos, uma diferença média bruta faz menos sentido.

log(y) ~ xβ1Xeβ1

eβ1=0,40

registro(x)1-xXexp(0,05)1.05Xexp(0,5)=1,65YX

y ~ log(x, base=2)xXβ1

Por fim, o log(y) ~ log(x)simplesmente aplica as duas definições para obter uma diferença multiplicativa comparando grupos que diferem multiplicativamente nos níveis de exposição.

AdamO
fonte