Interpretando a saída drop1 em R

14

Em R, o drop1comando gera algo limpo.
Esses dois comandos devem fornecer alguma saída:
example(step)#-> swiss
drop1(lm1, test="F")

O meu fica assim:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

O que tudo isso significa? Estou assumindo que as "estrelas" ajudam a decidir quais variáveis ​​de entrada devem ser mantidas. Olhando para a saída acima, quero jogar fora a variável "Examination" e focar na variável "Education", a interpretação está correta?

Além disso, o valor AIC, menor é melhor, sim?

Ed. Observe a resposta do Community Wiki abaixo e adicione-a, se achar necessário, para esclarecer esta saída.

gakera
fonte
7
a ajuda em R serve para explicar como usar a função. Não é para ser um curso de estatística. E com relação a isso, em geral, acredito que as páginas de ajuda do R estão entre as mais completas e práticas de todos os pacotes de código aberto que conheço. E pagando pacotes para esse assunto. O SPSS e o SAS oferecem muitas bobagens com meias verdades e bobagens completas como um "guia para interpretação".
Joris Meys
1
Esta questão foi rejeitada. Eu não pretendia dar o meu +1, mas parece-me agora que votar não é muito construtivo: (1) o OP deixa claro que isso é lição de casa e usa um conjunto de dados R para ilustração, não o seu dados, (2) uma pergunta relacionada step()foi classificada com +2 no momento em que este artigo foi escrito (então, por que ?!), (3) o OP reconheceu a utilidade da resposta de @ Joris.
quer
@chl: parece que eu não sou o único com dedos sensíveis quando se trata das páginas de ajuda do R :-). Mas eu concordo plenamente com você. A pergunta é válida, feita de maneira clara e, portanto, não há absolutamente nenhuma razão para rebaixá-la.
Joris Meys
Heh, me desculpe se eu pisei nos seus dedos com minha zombaria com a ajuda, eu não sou muito paciente quando se trata de algo com uma linha de comando. Eu sou estranho assim, eu sei. Vocês não seriam os primeiros a me chamarem de atenção :) Eu gosto deste lugar, as pessoas são honestas.
gakera
Lá vamos nós, editei a pergunta para que não fosse tão desanimadora para os advogados de R e a ajuda de R :) E reformulei a pergunta na AIC para evitar apenas leitores OP enganosos.
gakera

Respostas:

10

drop1fornece uma comparação de modelos com base no critério da AIC e, ao usar a opção, test="F"você adiciona uma "ANOVA tipo II", conforme explicado nos arquivos de ajuda . Contanto que você tenha apenas variáveis ​​contínuas, esta tabela é exatamente equivalente a summary(lm1), pois os valores F são apenas aqueles valores T ao quadrado. Os valores P são exatamente os mesmos.

Então, o que fazer com isso? Interprete-o exatamente dessa maneira: ele expressa de uma maneira se o modelo sem esse termo é "significativamente" diferente do modelo com esse termo. Observe o significado "" significativamente, pois o significado aqui não pode ser interpretado como a maioria das pessoas pensa. (problema de multi-teste e tudo ...)

E em relação à AIC: quanto menor, melhor parece mais. AIC é um valor que vale para o modelo , não para a variável. Portanto, o melhor modelo dessa saída seria aquele sem o exame da variável.

Lembre-se, o cálculo da estatística AIC e F é diferente das funções R AIC(lm1)respectivamente. anova(lm1). Pois AIC(), essas informações são fornecidas nas páginas de ajuda de extractAIC(). Para a anova()função, é bastante óbvio que o tipo I e o tipo II SS não são os mesmos.

Estou tentando não ser rude, mas se você não entende o que é explicado nos arquivos de ajuda, não deve usar a função em primeiro lugar. A regressão passo a passo é incrivelmente complicada, comprometendo seus valores-p da maneira mais profunda. Então, novamente, não se baseie nos valores de p. Seu modelo deve refletir sua hipótese e não o contrário.

Joris Meys
fonte
1
Gosto desse sentimento: "se eu ainda não entendo o que estou fazendo, não devo tentar aprendê-lo ..." Essa também é a abordagem adotada na ajuda do R - não é útil, a menos que você já saiba o que é indo. Eu esperava que isso pudesse ser o começo de algo diferente.
gakera
Mas posso usar esta parte da sua resposta: "Interprete exatamente dessa maneira: expressa se o modelo sem esse termo é significativamente diferente do modelo com esse termo". Para mim, isso significa que os valores de Pr (F) são o significado de cada um desses termos, e um pequeno valor significa que essa variável é importante. Portanto, um bom modelo deve incluir as variáveis ​​"***" e não as que não têm estrelas.
gakera
4
@gakera: Você me entendeu errado. Se você não entende o que está fazendo, definitivamente deve tentar aprender antes de usá-lo . Isso significa ler estatísticas e seguir um curso. Portanto, um bom modelo deve incluir as variáveis ​​formuladas na hipótese. Se você se basear nas variáveis ​​"***", primeiro precisará de um curso completo de modelagem. Você obviamente não entendeu meu último comentário. Desculpe pela comunicação direta, vem com o cara. Nada pessoal.
Joris Meys
@gakera: Atualizei minha resposta para esclarecer alguns pontos importantes. Principalmente porque você interpretou mal a parte que achou que poderia usar.
Joris Meys
Estou aprendendo a fazer, isso é lição de casa, afinal, ninguém vai morrer se eu não acertar - os peixes já estão mortos: P Obrigado pela ajuda até agora, e não se preocupe, isso não é a minha primeira vez na internet :)
gakera
4

Para referência, estes são os valores incluídos na tabela:
Dfrefere-se a Graus de liberdade , "o número de graus de liberdade é o número de valores no cálculo final de uma estatística que pode variar livremente".

A Sum of Sqcoluna refere-se à soma dos quadrados (ou mais precisamente à soma dos desvios ao quadrado ). Em resumo, essa é uma medida da quantia que cada valor individual diverge da média geral desses valores.
RSSé a soma residual dos quadrados . Essa é uma medida de quanto o valor previsto da variável dependente (ou de saída) varia do valor verdadeiro para cada ponto de dados no conjunto (ou mais coloquialmente: cada "linha" na tabela de dados).

AICé o critério de informação de Akaike que geralmente é considerado "complexo demais para explicar", mas é, em suma, uma medida da qualidade do ajuste de um modelo estatístico estimado. Se você precisar de mais detalhes, terá que recorrer a árvores mortas com palavras (como livros). Ou Wikipedia e os recursos lá.

Ele F valueé usado para executar o que é chamado de teste F e daí deriva o Pr(F)valor, que descreve a probabilidade (ou provável = Pr) de que o valor F é. Um valor Pr (F) próximo a zero (indicado por ***) é indicativo de uma variável de entrada que é de alguma forma importante para incluir em um bom modelo, ou seja, um modelo que não o inclui é "significativamente" diferente daquele isso faz.

Todos esses valores são, no contexto do drop1comando, calculados para comparar o modelo geral (incluindo todas as variáveis ​​de entrada) com o modelo resultante da remoção dessa variável específica por cada linha na tabela de saída.

Agora, se isso puder ser aprimorado, fique à vontade para adicionar ou esclarecer quaisquer problemas. Meu objetivo é apenas esclarecer e fornecer uma melhor referência de "pesquisa inversa" da saída de um comando R para o significado real dele.

gakera
fonte
@gakera Regressão prática e Anova usando R são um bom ponto de partida para a compreensão de modelos lineares e métodos relacionados à seleção de variáveis ​​/ modelos. Como apontado por @Joris, a regressão gradual raramente é a panacéia.
chl
hah, obrigado por adicionar os links @chl, mantendo meu aviso quanto ao motivo pelo qual não posso publicá-los. Você deve concordar que eu sou péssimo: D
gakera 17/11/2010
1
@gakera Acho que você precisa ter mais representantes para adicionar mais de um link por edição - entendo que isso não é muito agradável ao iniciar um site de perguntas e respostas. Eu estava assumindo que você removeria sua última frase. Por outro lado, acho que você não deve esperar votos em excesso por fornecer uma resposta para sua própria pergunta, já que é uma espécie de recapitulação '(útil).
chl
Eu não estou fazendo isso para votos positivos (isso é tão Reddit: P) - recapitular útil é exatamente o que eu estou procurando - principalmente para mim, mas provavelmente útil para os outros também.
gakera
@gakera Tenho certeza de que não foi para receber votos. Na maioria das vezes, definimos nossa própria resposta como Community Wiki (CW), quando elas não adicionam informações adicionais ou contraditórias. Essa é uma maneira neutra de resumir ou agregar as respostas de outras pessoas.
chl