Minha situação é:
Eu tenho 1 variável dependente contínua e 1 variável preditora contínua que eu logaritmicamente transformou para normalizar seus resíduos para uma regressão linear simples.
Gostaria de receber qualquer ajuda sobre como relacionar essas variáveis transformadas ao seu contexto original.
Eu quero usar uma regressão linear para prever o número de dias que os alunos faltaram às aulas em 2011 com base no número de dias que faltaram em 2010. A maioria dos alunos faltam 0 dias ou apenas alguns dias em que os dados estão positivamente inclinados para a esquerda. Portanto, há uma necessidade de transformação para usar a regressão linear.
Eu usei log10 (var + 1) para ambas as variáveis (usei +1 para alunos que faltaram 0 dias na escola). Estou usando a regressão porque quero adicionar fatores categóricos - gênero / etnia etc. também.
Meu problema é:
O público que eu gostaria de comentar não entenderia log10 (y) = log (constante) + log (var2) x (e, francamente, nem eu).
Minhas perguntas são:
a) Existem maneiras melhores de interpretar variáveis transformadas em regressão? Ou seja, para sempre 1 dia faltando em 2010, eles perderão 2 dias em 2011, em vez de para sempre 1 mudança de unidade de log em 2010, haverá x unidades de log em 2011?
b) Especificamente, dada a passagem citada dessa fonte da seguinte forma:
"Esta é a estimativa de regressão binomial negativa para um aumento de uma unidade na pontuação do teste padronizado de matemática, considerando que as outras variáveis são mantidas constantes no modelo. Se um aluno aumentasse sua pontuação no teste de matemática em um ponto, a diferença nos registros de as contagens esperadas deverão diminuir em 0,0016 unidade, mantendo as outras variáveis no modelo constantes ".
Eu gostaria de saber:
- Esta passagem está dizendo que, para cada unidade de aumento na pontuação da
UNTRANSFORMED
variável matemática, ocorre uma diminuição de 0,0016 da constante (a); portanto, se aUNTRANSFORMED
pontuação da matemática aumenta dois pontos, subtraio 0,0016 * 2 da constante a? - Isso significa que obtenho a média geométrica usando exponencial (a)) e exponencial (a + beta * 2) e que preciso calcular a diferença percentual entre esses dois para dizer qual o efeito da (s) variável (s) preditora (s) / tem sobre a variável dependente?
- Ou eu entendi isso totalmente errado?
Estou usando o SPSS v20. Desculpe por enquadrar isso em uma longa pergunta.
R
possui pacotes para modelos inflados a zero; pesquise neste site .)Respostas:
Eu acho que o ponto mais importante é sugerido no comentário do @ whuber. Toda a sua abordagem é infundada porque, ao usar os logaritmos, você efetivamente está expulsando do conjunto de dados quaisquer alunos com zero dias de falta em 2010 ou 2011. Parece que existem pessoas suficientes para causar um problema, e estou certo de que seus resultados serão estar errado com base na abordagem que você está adotando.
Em vez disso, você precisa ajustar um modelo linear generalizado com uma resposta de Poisson. O SPSS não pode fazer isso, a menos que você tenha pago pelo módulo apropriado, então sugiro atualizar para R.
Você ainda terá o problema de interpretar os coeficientes, mas isso é secundário à importância de ter um modelo que seja basicamente apropriado.
fonte
Eu concordo com outros entrevistados, especialmente com relação à forma do modelo. Se eu entendo a motivação da sua pergunta, no entanto, você está abordando o público em geral e pretende transmitir o substantivo(teórico) da sua análise. Para esse propósito, comparo os valores previstos (por exemplo, dias estimados perdidos) em vários "cenários". Com base no modelo escolhido, você pode comparar o número ou valor esperado da variável dependente quando os preditores atingirem determinados valores fixos (medianas ou zero, por exemplo) e depois mostrar como uma alteração "significativa" dos preditores afeta as previsões. Obviamente, você precisa transformar os dados novamente na escala original e compreensível com a qual você começa. Digo "mudança significativa" porque muitas vezes a "mudança de uma unidade em X" padrão não transmite a importação real ou a falta dela de uma variável independente. Com "dados de presença", não tenho certeza de que mudança seria essa. (Se um aluno não perdeu nenhum dia em 2010 e um dia em 2011, Não tenho certeza se aprenderíamos alguma coisa. Mas eu não sei.)
fonte
Edit: whoops, não percebeu que sua variável dependente também foi transformada em log. Aqui está um link com um bom exemplo que descreve todas as três situações:
1) apenas Y é transformado 2) apenas os preditores são transformados 3) Y e os preditores são transformados
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm
fonte
você pode simplesmente mostrar:
onde: , e são multiplicadores. Ou seja, cada vez que a covariável é igual a 1, a previsão é multiplicada por . Por exemplo, se , e , sua previsão é: M 2 = e W 2 M 3 = e W 3M1=eW1 M2=eW2 M3=eW3 Xi Mi X1=0 X2=1 X3=1
Estou usando porque essa não é exatamente a previsão da média de : o parâmetro médio de uma distribuição log-normal não é geralmente a média da variável aleatória (como é o caso da regressão linear clássica sem o transformação de log). Não tenho uma referência precisa aqui, mas acho que esse é um raciocínio direto.Y≊ Y
fonte