Em R, o drop1
comando gera algo limpo.
Esses dois comandos devem fornecer alguma saída:
example(step)#-> swiss
drop1(lm1, test="F")
O meu fica assim:
> drop1(lm1, test="F")
Single term deletions
Model:
Fertility ~ Agriculture + Examination + Education + Catholic +
Infant.Mortality
Df Sum of Sq RSS AIC F value Pr(F)
<none> 2105.0 190.69
Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 *
Examination 1 53.03 2158.1 189.86 1.0328 0.315462
Education 1 1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic 1 447.71 2552.8 197.75 8.7200 0.005190 **
Infant.Mortality 1 408.75 2513.8 197.03 7.9612 0.007336 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
O que tudo isso significa? Estou assumindo que as "estrelas" ajudam a decidir quais variáveis de entrada devem ser mantidas. Olhando para a saída acima, quero jogar fora a variável "Examination" e focar na variável "Education", a interpretação está correta?
Além disso, o valor AIC, menor é melhor, sim?
Ed. Observe a resposta do Community Wiki abaixo e adicione-a, se achar necessário, para esclarecer esta saída.
step()
foi classificada com +2 no momento em que este artigo foi escrito (então, por que ?!), (3) o OP reconheceu a utilidade da resposta de @ Joris.Respostas:
drop1
fornece uma comparação de modelos com base no critério da AIC e, ao usar a opção,test="F"
você adiciona uma "ANOVA tipo II", conforme explicado nos arquivos de ajuda . Contanto que você tenha apenas variáveis contínuas, esta tabela é exatamente equivalente asummary(lm1)
, pois os valores F são apenas aqueles valores T ao quadrado. Os valores P são exatamente os mesmos.Então, o que fazer com isso? Interprete-o exatamente dessa maneira: ele expressa de uma maneira se o modelo sem esse termo é "significativamente" diferente do modelo com esse termo. Observe o significado "" significativamente, pois o significado aqui não pode ser interpretado como a maioria das pessoas pensa. (problema de multi-teste e tudo ...)
E em relação à AIC: quanto menor, melhor parece mais. AIC é um valor que vale para o modelo , não para a variável. Portanto, o melhor modelo dessa saída seria aquele sem o exame da variável.
Lembre-se, o cálculo da estatística AIC e F é diferente das funções R
AIC(lm1)
respectivamente.anova(lm1)
. PoisAIC()
, essas informações são fornecidas nas páginas de ajuda deextractAIC()
. Para aanova()
função, é bastante óbvio que o tipo I e o tipo II SS não são os mesmos.Estou tentando não ser rude, mas se você não entende o que é explicado nos arquivos de ajuda, não deve usar a função em primeiro lugar. A regressão passo a passo é incrivelmente complicada, comprometendo seus valores-p da maneira mais profunda. Então, novamente, não se baseie nos valores de p. Seu modelo deve refletir sua hipótese e não o contrário.
fonte
Para referência, estes são os valores incluídos na tabela:
Df
refere-se a Graus de liberdade , "o número de graus de liberdade é o número de valores no cálculo final de uma estatística que pode variar livremente".A
Sum of Sq
coluna refere-se à soma dos quadrados (ou mais precisamente à soma dos desvios ao quadrado ). Em resumo, essa é uma medida da quantia que cada valor individual diverge da média geral desses valores.RSS
é a soma residual dos quadrados . Essa é uma medida de quanto o valor previsto da variável dependente (ou de saída) varia do valor verdadeiro para cada ponto de dados no conjunto (ou mais coloquialmente: cada "linha" na tabela de dados).AIC
é o critério de informação de Akaike que geralmente é considerado "complexo demais para explicar", mas é, em suma, uma medida da qualidade do ajuste de um modelo estatístico estimado. Se você precisar de mais detalhes, terá que recorrer a árvores mortas com palavras (como livros). Ou Wikipedia e os recursos lá.Ele
F value
é usado para executar o que é chamado de teste F e daí deriva oPr(F)
valor, que descreve a probabilidade (ou provável = Pr) de que o valor F é. Um valor Pr (F) próximo a zero (indicado por***
) é indicativo de uma variável de entrada que é de alguma forma importante para incluir em um bom modelo, ou seja, um modelo que não o inclui é "significativamente" diferente daquele isso faz.Todos esses valores são, no contexto do
drop1
comando, calculados para comparar o modelo geral (incluindo todas as variáveis de entrada) com o modelo resultante da remoção dessa variável específica por cada linha na tabela de saída.Agora, se isso puder ser aprimorado, fique à vontade para adicionar ou esclarecer quaisquer problemas. Meu objetivo é apenas esclarecer e fornecer uma melhor referência de "pesquisa inversa" da saída de um comando R para o significado real dele.
fonte