Quero regredir a economia de combustível no deslocamento do motor, tipo de combustível, tração nas duas rodas vs. 4 rodas, potência, transmissão manual vs. automática e número de velocidades. Meu conjunto de dados ( link ) contém veículos de 2012 a 2014.
fuelEconomy
em milhas por galãoengineDisplacement
: tamanho do motor em litrosfuelStd
: 1 para gás 0 para dieselwheelDriveStd
: 1 para tração nas duas rodas, 0 para tração nas quatro rodashp
: potênciatransStd
: 1 para automático, 0 para manualtransSpeed
: Número de velocidades
Código R:
reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp +
transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd +
hp + transStd + transSpeed, data = a)
Residuals:
Min 1Q Median 3Q Max
-10.2765 -2.3142 -0.0655 2.0944 15.8637
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48.147115 0.542910 88.683 < 2e-16 ***
engineDisplacement -3.673549 0.091272 -40.248 < 2e-16 ***
fuelStd -6.613112 0.403989 -16.370 < 2e-16 ***
wheelDriveStd 2.778134 0.137775 20.164 < 2e-16 ***
hp -0.005884 0.001008 -5.840 5.86e-09 ***
transStd -0.351853 0.157570 -2.233 0.0256 *
transSpeed -0.080365 0.052538 -1.530 0.1262
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.282 on 2648 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.7802, Adjusted R-squared: 0.7797
F-statistic: 1566 on 6 and 2648 DF, p-value: < 2.2e-16
- Os resultados são realistas ou estou fazendo algo errado aqui, pois a maioria das variáveis é altamente estatisticamente significativa?
- Outros modelos são melhores para esse fim?
- Esse resultado é utilizável para interpretação?
Eu sei muito pouco sobre a mecânica e a física envolvidas, mas a primeira coisa que eu examinaria é o diagnóstico de regressão, em particular, os gráficos de resíduos versus valores ajustados, para os quais gostaríamos que não houvesse um padrão geral.
Você ajustou um modelo linear para que cada covariável tenha uma associação linear com
fuelEconomy
. Isso é suportado pela teoria mecânica e física subjacente? Poderia haver alguma associação não linear? Nesse caso, você pode considerar modelos com termos não lineares, transformar determinadas variáveis ou usar um modelo aditivo. Mesmo que as associações sejam plausivelmente lineares dentro do seu conjunto de dados real, tenha muito cuidado em extrapolar os resultados além dos limites de dados.fonte
Uma matriz de dispersão com curvas de loess e valores de correlação (valores absolutos) pode ser um bom ponto de partida:
Podemos notar aqui a relação possivelmente quadrática de
fuelEconomy
plotada contra ambaslineDisplacement
ehp
, que também se reflete em uma aparência da Nike swoosh na plotagem residual . Seria interessante investigar a presença de uma interação entre esses termos.Essa falta de linearidade também é aparente se executarmos uma regressão linear de
fuelEconomy
contralinearDisplacement
(resultados semelhantes podem ser obtidos comhp
). Observe a linha vermelha ...Esse efeito pode ser parcialmente retificado, tornando o modelo mais complexo e introduzindo um modelo quadrático:
A natureza dicotômica
fuelStd
ewheeldriveStd
simplesmente move a média dos valores previstos para baixo e, na verdade, são variáveis ou fatores com código fictício. Isso também é aparente no gráfico de dispersão inicial, mas pode ser visualizado com gráficos de caixa:Um ponto final no diagnóstico é a presença de pontos de alavancagem altos , que valem a pena considerar:
O que concluir? Nada categórico. Talvez apenas para enfatizar a importância da plotagem no entendimento do conjunto de dados e de qualquer modelo imposto a ele.
fonte
A resposta para sua primeira pergunta depende do seu referencial teórico, como você declara as hipóteses sobre a relação entre variáveis dependentes e independentes e como interpreta os resultados. Por si só, obter um relacionamento estatisticamente significativo para a maioria das variáveis pode não dizer nada sobre o quão realistas são os seus resultados.
Portanto, se esses resultados lhe parecerem suspeitos (com base no seu conhecimento anterior), você poderá executar alguns testes de diagnóstico para regressão. Pode haver uma violação das premissas do modelo e outros problemas (por exemplo, discrepantes). De fato, é sempre útil executar esses testes para avaliar seu modelo de regressão. Como você está usando
R
, você pode verificar ocar
pacote que fornece várias funções para testes de diagnóstico. Aqui você encontra os slides do curso sobre diagnóstico de regressão de um dos autores (e do criador) docar
pacote, John Fox. Você pode conferir o livro dele sobre o tema (1991) também. Kabacoff (2011) também discutiu o diagnóstico de regressão e como usarR
funções (incluindo aquelas decar
pacote) e interpretar os resultados (p.188-200). Acho que após esses testes de diagnóstico, é melhor avaliar os resultados e como eles são utilizáveis.Fox, J. (1991). Diagnóstico de regressão . Newbury Park, Londres, Nova Deli: Sage Publications.
Kabacoff, RI (2011). R em Ação: A análise dos dados e gráficos com R . Shelter Island: Manning.
Além disso:
Fox, J. & Weisberg, S. (2011). Diagnosticando problemas em modelos lineares e lineares generalizados. In An R Companion to Applied Regression (2ª ed., Pp. 285-328). Los Angeles: Publicações Sábias.
fonte