Como interpretar coeficientes logaritmicamente transformados em regressão linear?

10

Minha situação é:

Eu tenho 1 variável dependente contínua e 1 variável preditora contínua que eu logaritmicamente transformou para normalizar seus resíduos para uma regressão linear simples.

Gostaria de receber qualquer ajuda sobre como relacionar essas variáveis ​​transformadas ao seu contexto original.

Eu quero usar uma regressão linear para prever o número de dias que os alunos faltaram às aulas em 2011 com base no número de dias que faltaram em 2010. A maioria dos alunos faltam 0 dias ou apenas alguns dias em que os dados estão positivamente inclinados para a esquerda. Portanto, há uma necessidade de transformação para usar a regressão linear.

Eu usei log10 (var + 1) para ambas as variáveis ​​(usei +1 para alunos que faltaram 0 dias na escola). Estou usando a regressão porque quero adicionar fatores categóricos - gênero / etnia etc. também.

Meu problema é:

O público que eu gostaria de comentar não entenderia log10 (y) = log (constante) + log (var2) x (e, francamente, nem eu).

Minhas perguntas são:

a) Existem maneiras melhores de interpretar variáveis ​​transformadas em regressão? Ou seja, para sempre 1 dia faltando em 2010, eles perderão 2 dias em 2011, em vez de para sempre 1 mudança de unidade de log em 2010, haverá x unidades de log em 2011?

b) Especificamente, dada a passagem citada dessa fonte da seguinte forma:

"Esta é a estimativa de regressão binomial negativa para um aumento de uma unidade na pontuação do teste padronizado de matemática, considerando que as outras variáveis ​​são mantidas constantes no modelo. Se um aluno aumentasse sua pontuação no teste de matemática em um ponto, a diferença nos registros de as contagens esperadas deverão diminuir em 0,0016 unidade, mantendo as outras variáveis ​​no modelo constantes ".

Eu gostaria de saber:

  • Esta passagem está dizendo que, para cada unidade de aumento na pontuação da UNTRANSFORMEDvariável matemática, ocorre uma diminuição de 0,0016 da constante (a); portanto, se a UNTRANSFORMEDpontuação da matemática aumenta dois pontos, subtraio 0,0016 * 2 da constante a?
  • Isso significa que obtenho a média geométrica usando exponencial (a)) e exponencial (a + beta * 2) e que preciso calcular a diferença percentual entre esses dois para dizer qual o efeito da (s) variável (s) preditora (s) / tem sobre a variável dependente?
  • Ou eu entendi isso totalmente errado?

Estou usando o SPSS v20. Desculpe por enquadrar isso em uma longa pergunta.


JimBob
fonte
8
Você já pensou em usar a regressão de Poisson? É naturalmente indicado com dados de contagem dependentes e seu sucesso com uma transformação de log é consistente com as distribuições de Poisson. Os coeficientes seriam interpretados em termos de aumentos proporcionais na probabilidade esperada de faltar um dia de aula. Uma vantagem é que nenhum tratamento especial de zeros é necessário (embora ainda seja uma idéia muito boa olhar para um modelo alternativo inflado a zero).
whuber
Oi Whuber, Sim, eu estava pensando em regressão de Poisson, mas não tinha certeza disso ou optando por regressão binomial negativa. Eu acho que o binômio negativo já que os dados estão dispersos demais - ou seja, a média é menor que a variação no conjunto de dados (portanto, inclinação positiva). Além disso, estritamente, há um limite superior no número de sessões escolares no ano, enquanto Poisson assume um denominador ilimitado? Ou você ainda acha que Poisson é mais apropriado? Infelizmente SPSS não suporta zero de modelos inflacionados, tanto quanto eu vi ...) Graças Whuber :)
JimBob
3
Não vejo problema com o suporte ilimitado às distribuições de Poisson: é semelhante ao uso das distribuições normais para modelar, digamos, valores que devem ser não-negativos. Desde que as chances associadas a valores impossíveis sejam pequenas, ele pode ser um bom modelo. O binômio negativo é a alternativa padrão ao Poisson usada para testar a qualidade do ajuste e a super-dispersão; é uma boa ideia. Se o SPSS for muito limitado, use outra coisa! ( Rpossui pacotes para modelos inflados a zero; pesquise neste site .)
whuber
2
Concordo com @whuber Eu acho que você provavelmente quer um modelo ZIP ou ZINB. Gostaria de acrescentar que eles também estão disponíveis no SAS via PROC COUNTREG (no ETS) e, começando com o SAS 9.2, no PROC GENMOD (no STAT)
Peter Flom - Reinstate Monica
2
Há informações muito boas em stats.stackexchange.com/questions/18480/… .
Rolando2

Respostas:

7

Eu acho que o ponto mais importante é sugerido no comentário do @ whuber. Toda a sua abordagem é infundada porque, ao usar os logaritmos, você efetivamente está expulsando do conjunto de dados quaisquer alunos com zero dias de falta em 2010 ou 2011. Parece que existem pessoas suficientes para causar um problema, e estou certo de que seus resultados serão estar errado com base na abordagem que você está adotando.

Em vez disso, você precisa ajustar um modelo linear generalizado com uma resposta de Poisson. O SPSS não pode fazer isso, a menos que você tenha pago pelo módulo apropriado, então sugiro atualizar para R.

Você ainda terá o problema de interpretar os coeficientes, mas isso é secundário à importância de ter um modelo que seja basicamente apropriado.

Peter Ellis
fonte
Por que não usar a transformação ? Isso resolveria o problema que você mencionou. No entanto, a transformação inversa seria um pouco mais envolvida e a interpretação seria mais difícil. Há um post sobre isso aqui: stats.stackexchange.com/questions/18694/…xlog(x+1)
toypajme 3/15/15
3

Eu concordo com outros entrevistados, especialmente com relação à forma do modelo. Se eu entendo a motivação da sua pergunta, no entanto, você está abordando o público em geral e pretende transmitir o substantivo(teórico) da sua análise. Para esse propósito, comparo os valores previstos (por exemplo, dias estimados perdidos) em vários "cenários". Com base no modelo escolhido, você pode comparar o número ou valor esperado da variável dependente quando os preditores atingirem determinados valores fixos (medianas ou zero, por exemplo) e depois mostrar como uma alteração "significativa" dos preditores afeta as previsões. Obviamente, você precisa transformar os dados novamente na escala original e compreensível com a qual você começa. Digo "mudança significativa" porque muitas vezes a "mudança de uma unidade em X" padrão não transmite a importação real ou a falta dela de uma variável independente. Com "dados de presença", não tenho certeza de que mudança seria essa. (Se um aluno não perdeu nenhum dia em 2010 e um dia em 2011, Não tenho certeza se aprenderíamos alguma coisa. Mas eu não sei.)

thereasonableprogressive
fonte
2

Y=bXXY=blog(X)Xblog(1.01)

Edit: whoops, não percebeu que sua variável dependente também foi transformada em log. Aqui está um link com um bom exemplo que descreve todas as três situações:

1) apenas Y é transformado 2) apenas os preditores são transformados 3) Y e os preditores são transformados

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm

JCWong
fonte
11
Oi JC, Obrigado pela sua resposta. Adotei a abordagem de transformar minhas variáveis ​​dependentes e independentes para obter consistência, mas li que é apenas o DV que realmente precisa ser transformado para normalidade em comparação aos seus IVs.
precisa
Na verdade, eu vi o link que você sugeriu (obrigado), mas não ficou claro em alguns pontos, especialmente em relação à comparação da média geométrica com a 'vida real', mas acho que usar a média geométrica tem mais a ver com modelagem o efeito da mudança em x em y em vez do resultado de y por unidade de mudança em x? Eu acho que preciso voltar e fazer uma segunda leitura ... #
911
2

YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2

você pode simplesmente mostrar:

YC M1X1 M2X2 M3X3 ,

onde: , e são multiplicadores. Ou seja, cada vez que a covariável é igual a 1, a previsão é multiplicada por . Por exemplo, se , e , sua previsão é: M 2 = e W 2 M 3 = e W 3M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3 .

Estou usando porque essa não é exatamente a previsão da média de : o parâmetro médio de uma distribuição log-normal não é geralmente a média da variável aleatória (como é o caso da regressão linear clássica sem o transformação de log). Não tenho uma referência precisa aqui, mas acho que esse é um raciocínio direto.YY

Guillaume
fonte
3
Você não precisa se preocupar com os problemas normais do log: os multiplicadores estão corretos, independentemente. (Haveria um problema com os modelos heterocedásticos.) Isso ocorre porque que é a variação de . BTW, verifique suas definições do para erros de digitação. σ 2 log ( Y ) M iE[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber