Eu tenho um modelo de regressão linear com a amostra e as observações variáveis e quero saber:
- Se uma variável específica é significativa o suficiente para permanecer incluída no modelo.
- Se outra variável (com observações) deve ser incluída no modelo.
Quais estatísticas podem me ajudar? Como obtê-los com mais eficiência?
regression
Wilhelm
fonte
fonte
Eu segundo o comentário de Rob. Uma alternativa cada vez mais preferida é incluir todas as suas variáveis e reduzi-las para zero. Veja Tibshirani, R. (1996). Retração e seleção de regressão através do laço.
http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf
fonte
Para a parte 1, você está olhando para o F-teste . Calcule sua soma residual de quadrados de cada ajuste de modelo e calcule uma estatística F, que você pode usar para encontrar valores-p de uma distribuição F ou de alguma outra distribuição nula que você mesmo gerar.
fonte
Outro voto para a resposta de Rob.
Existem também algumas idéias interessantes na literatura de "importância relativa". Este trabalho desenvolve métodos que buscam determinar quanta importância está associada a cada um dos vários preditores candidatos. Existem métodos bayesianos e freqüentistas. Verifique o pacote "relaimpo" no R para obter citações e código.
fonte
Eu também gosto da resposta de Rob. E, se você usar SAS em vez de R, poderá usar o PROC GLMSELECT para modelos que seriam feitos com o PROC GLM, embora funcione bem para outros modelos também. Vejo
Flom e Cassell "Parando passo a passo: por que os métodos de seleção passo a passo são ruins e o que você deve usar" apresentado em vários grupos, mais recentemente, NESUG 2009
fonte