Interpretando a saída da etapa em R

11

Em R, o stepcomando supostamente pretende ajudá-lo a selecionar as variáveis ​​de entrada para o seu modelo, certo?

O seguinte vem de example(step)#-> swiss& step(lm1)

> step(lm1)
Start:  AIC=190.69
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality

                   Df Sum of Sq    RSS    AIC
- Examination       1     53.03 2158.1 189.86
<none>                          2105.0 190.69
- Agriculture       1    307.72 2412.8 195.10
- Infant.Mortality  1    408.75 2513.8 197.03
- Catholic          1    447.71 2552.8 197.75
- Education         1   1162.56 3267.6 209.36

Step:  AIC=189.86
Fertility ~ Agriculture + Education + Catholic + Infant.Mortality

                   Df Sum of Sq    RSS    AIC
<none>                          2158.1 189.86
- Agriculture       1    264.18 2422.2 193.29
- Infant.Mortality  1    409.81 2567.9 196.03
- Catholic          1    956.57 3114.6 205.10
- Education         1   2249.97 4408.0 221.43

Call:
lm(formula = Fertility ~ Agriculture + Education + Catholic +     Infant.Mortality, data = swiss)

Coefficients:
     (Intercept)       Agriculture         Education  
         62.1013           -0.1546           -0.9803  
        Catholic  Infant.Mortality  
          0.1247            1.0784  

Agora, quando olho para isso, acho que a última tabela Step é o modelo que devemos usar? As últimas linhas incluem a função "Chamada", que descreve o modelo real e quais variáveis ​​de entrada ele inclui, e os "Coeficientes" são as estimativas reais dos parâmetros para esses valores, certo? Então esse é o modelo que eu quero, certo? Estou tentando extrapolar isso para o meu projeto, onde há mais variáveis.

gakera
fonte

Respostas:

7

A última tabela de etapas é realmente o resultado final da "regressão gradual". A ressalva aqui é que geralmente você não deseja usar essa abordagem quando existe uma maneira baseada em princípios de abordar a especificação do seu modelo. A chamada é a chamada lm que produziria a equação usada na etapa final. Coeficientes são as estimativas reais dos parâmetros. É notável que, porque você não definiu uma etapa de parâmetro de escopo ou direção padronizada para uma abordagem de etapa 'retrógrada', na qual os termos das variáveis ​​são avaliados quanto à queda em cada etapa, a cada etapa, se a queda da variável selecionada diminuir o AIC, ela será removida. do modelo e todo o processo se repete até que se torne possível que nenhuma variável única possa ser descartada. No seu exemplo, na etapa final, Fertilidade ~ Agricultura + Educação + Católica + Bebê.

russellpierce
fonte
2

A parte da impressão no final é o modelo que resta. Você também pode obtê-lo se capturar o valor da stepfunção:

final.mod <- step(lm1)
final.mod
Aniko
fonte