Uma variável é significativa em um modelo de regressão linear?

9

Eu tenho um modelo de regressão linear com a amostra e as observações variáveis ​​e quero saber:

  1. Se uma variável específica é significativa o suficiente para permanecer incluída no modelo.
  2. Se outra variável (com observações) deve ser incluída no modelo.

Quais estatísticas podem me ajudar? Como obtê-los com mais eficiência?

Wilhelm
fonte

Respostas:

26

A significância estatística geralmente não é uma boa base para determinar se uma variável deve ser incluída em um modelo. Os testes estatísticos foram projetados para testar hipóteses, não para selecionar variáveis. Sei que muitos livros discutem a seleção de variáveis ​​usando testes estatísticos, mas essa geralmente é uma abordagem ruim. Veja o livro de Harrell Regression Modeling Strategies para algumas das razões. Atualmente, a seleção de variáveis ​​com base na AIC (ou algo semelhante) é geralmente preferida.

Rob Hyndman
fonte
Na verdade, com o melhor de minha memória, Harrell desencoraja fortemente o uso da AIC. Eu acho que a validação cruzada provavelmente seria o método mais seguro.
Tal Galili
11
AIC é assintoticamente equivalente a CV. Veja as respostas para stats.stackexchange.com/questions/577/… . Verifiquei Harrell antes de escrever essa resposta e não vi nenhum desânimo da AIC. Ele alerta sobre o teste de significância após a seleção de variáveis, com o AIC ou qualquer outro método.
Rob Hyndman
@Tal: Talvez em um de seus artigos, e não no livro RMS, eu me lembre de Harrell se opondo ao uso da AIC por simplesmente escolher entre um conjunto de muitos modelos. Acho que o argumento dele era que você deve adicionar uma variável de cada vez e comparar dois modelos metodicamente ou usar alguma estratégia semelhante. (Para ser claro, isso está de acordo com a resposta de Rob.)
ars
Fazendo uma pesquisa rápida, encontrei Harrell escrevendo o seguinte "Cuidado com a seleção de modelos com base em valores P, quadrado R, quadrado R parcial, AIC, BIC, coeficientes de regressão ou Cp de Mallows". Ele escreveu isso em 14/12/08, em uma lista de discussão intitulada [R] Obtendo valores-p para coeficientes da função LRM (design do pacote) - texto simples. Acho que não entendi o significado dele.
Tal Galili
2
@ Tal, @ Rob: Nesse tópico, ele diz "Certifique-se de usar o princípio da hierarquia". Talvez de interesse, essa discussão de medstats (desloque-se para a resposta de Harrell): groups.google.com/group/medstats/browse_thread/thread/...
ars
4

Eu segundo o comentário de Rob. Uma alternativa cada vez mais preferida é incluir todas as suas variáveis ​​e reduzi-las para zero. Veja Tibshirani, R. (1996). Retração e seleção de regressão através do laço.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf

user603
fonte
11
Existe alguma maneira de quantificar o que é "cada vez mais preferido" hoje em dia?
Tal Galili
Eu acho que é reconhecido como cientificamente mais correto em muitos campos, no sentido de que a abordagem de retração é usada mais em trabalhos estatísticos aplicados recentes do que a abordagem * .IC. Isso mostra um certo consenso teórico, pelo menos tácito.
User603
11
2p
3

Para a parte 1, você está olhando para o F-teste . Calcule sua soma residual de quadrados de cada ajuste de modelo e calcule uma estatística F, que você pode usar para encontrar valores-p de uma distribuição F ou de alguma outra distribuição nula que você mesmo gerar.

Eric Suh
fonte
1

Outro voto para a resposta de Rob.

Existem também algumas idéias interessantes na literatura de "importância relativa". Este trabalho desenvolve métodos que buscam determinar quanta importância está associada a cada um dos vários preditores candidatos. Existem métodos bayesianos e freqüentistas. Verifique o pacote "relaimpo" no R para obter citações e código.

Andrew Robinson
fonte
1

Eu também gosto da resposta de Rob. E, se você usar SAS em vez de R, poderá usar o PROC GLMSELECT para modelos que seriam feitos com o PROC GLM, embora funcione bem para outros modelos também. Vejo

Flom e Cassell "Parando passo a passo: por que os métodos de seleção passo a passo são ruins e o que você deve usar" apresentado em vários grupos, mais recentemente, NESUG 2009

Peter Flom - Restabelece Monica
fonte