Como funciona a "regressão gradual"?

11

Usei o seguinte código R para ajustar um modelo probit:

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

Eu quero saber o que faz stepwisee backward/forwardfaz exatamente e como selecionar as variáveis?

Mahmoud
fonte
7
Alguns comentários de Frank Harrell ( stats.stackexchange.com/users/4253/frank-harrell ) sobre por que a regressão gradual é ruim: stata.com/support/faqs/statistics/stepwise-regression-problems
4
Além dos links da BabakP, também dê uma olhada neste post do site.
precisa saber é o seguinte
3
Ainda outro post sobre problemas com o stepwise (e também para trás e para a frente) é um artigo que escrevi com David Cassell: Parando o stepwise
Peter Flom - Reinstate Monica
@ PeterFlom, para fazer referência a este artigo, estou tendo alguns problemas para entender a citação apropriada. Você poderia listar aqui? Obrigado.
Doug.numbers 23/05
2
@ doug.numbers Foram apresentados vários locais e publicados como parte dos anais da conferência. Se você pesquisar no Google "Flom, Cassell, Stepwise", encontrará os lugares em que foi apresentado e poderá formatá-lo, no entanto, formata citações para apresentações publicadas.
Peter Flom - Restabelece Monica

Respostas:

10

Princípio da seleção gradual

  1. Você ajusta um modelo com todas as variáveis ​​que deseja. Este é o seu melhor modelo atual.
  2. Você remove uma variável (ou adiciona uma, entre as variáveis ​​não usadas no melhor modelo atual) e, para cada uma, ajusta o novo modelo e as compara com cada uma delas e com a original, de acordo com a BIC (ou qualquer outra outro critério, como AIC ). Você recebe outro "melhor modelo atual".

Você repete 2. até que não haja redução do BIC. Você tem apenas um mínimo local de BIC, o que significa que você pode não obter o melhor modelo entre todas as opções possíveis de subconjuntos de variáveis. Mas de qualquer maneira, geralmente há muitos deles, então essa é uma maneira de otimizar um pouco, sem muito trabalho.

Veja também Regressão stepwise e seleção de modelos na Wikipedia.


fonte
5

A regressão passo a passo se ajusta basicamente ao modelo de regressão adicionando / descartando covariáveis, uma de cada vez, com base em um critério especificado (no seu exemplo acima, o critério seria baseado no BIC).

Ao especificar o encaminhamento, você está dizendo Rque gostaria de começar com o modelo mais simples (isto é, uma covariável) e depois adicionar um covariável por vez, mantendo apenas os que resultam em uma melhoria nos modelos BIC.

Ao especificar para trás, você está dizendo Rque deseja começar com o modelo completo (ou seja, o modelo com todas as covariáveis) e depois descartá-las, uma vez ou mais, o que resulta em uma melhoria no BIC.

A regressão por etapas pode ser um procedimento estatístico muito perigoso, porque não é um procedimento de seleção de modelo ideal. O método pode levar a uma seleção de modelo muito ruim, porque não o protege contra problemas como comparações múltiplas.


fonte
Obrigado. E o que dizer de 'retroceder / avançar'?
Mahmoud
Como assim, para trás / para frente?
Um dos métodos de stpewise () em R é 'para trás / para frente'! É uma combinação de ambos?
Mahmoud
2
Oh desculpe, agora eu entendo o que você está perguntando. Sim, se você especificar os dois, aplica-se tanto para frente quanto para trás e escolhe aquele com o melhor critério.