Graus de liberdade residual apropriados após a eliminação dos termos de um modelo

27

Estou refletindo sobre a discussão em torno desta questão e, em particular, o comentário de Frank Harrell de que a estimativa de variação em um modelo reduzido (ou seja, do qual várias variáveis ​​explicativas foram testadas e rejeitadas) deve usar os graus de liberdade generalizados de Ye . O professor Harrell ressalta que isso estará muito mais próximo dos graus residuais de liberdade do modelo "completo" original (com todas as variáveis ​​inseridas) do que do modelo final (do qual várias variáveis ​​foram rejeitadas).

Questão 1. Se eu quiser usar uma abordagem apropriada para todos os resumos e estatísticas padrão de um modelo reduzido (mas com falta de uma implementação completa dos Graus de Liberdade Generalizados), uma abordagem razoável seria usar apenas os graus residuais de liberdade de o modelo completo em minhas estimativas de variância residual, etc?

Pergunta 2. Se o exposto acima for verdadeiro e eu quero fazer isso R, pode ser tão simples quanto definir

finalModel$df.residual <- fullModel$df.residual

em algum momento do exercício de ajuste de modelo, em que finalModel e fullModel foram criados com lm ​​() ou uma função semelhante. Após o qual funções como summary () e confint () parecem funcionar com o df.residual desejado, embora retorne uma mensagem de erro informando que alguém claramente se interessou pelo objeto finalModel.

Peter Ellis
fonte
8
Boa pergunta. Isso está relacionado ao motivo pelo qual Douglas Bates não inclui valores-p na lmersaída. Veja o raciocínio dele aqui .
2
Eu vi o modelo completo df usado em tal situação mais de uma vez. (A abordagem de Ye aparece muito em situações diferentes; é um documento que eu recomendo às pessoas regularmente. Seria bom ter alguma função R genérica, mas eficiente, da qual muitas funções pudessem tirar proveito.)
Glen_b -Reinstate Monica

Respostas:

3

Você discorda da resposta de @ FrankHarrel de que a parcimônia vem com algumas trocas científicas feias?

Adoro o link fornecido no comentário de @ MikeWiezbicki à lógica de Doug Bates. Se alguém discordar de sua análise, eles podem fazer do seu jeito, e essa é uma maneira divertida de iniciar uma discussão científica sobre suas suposições básicas. Um valor-p não torna sua conclusão uma "verdade absoluta".

Se a decisão de incluir ou não um parâmetro em seu modelo se resume a "escolher os cabelos" sobre o que são, para amostras cientificamente significativas, discrepâncias relativamente pequenas no df - e você não está lidando com problemas que justificam qualquer inferência mais sutil, de qualquer maneira - então você tem um parâmetro tão próximo de atender aos seus pontos de corte que deve ser transparente e falar sobre isso de qualquer maneira: inclua-o ou analise o modelo com e sem ele, mas definitivamente discuta de forma transparente sua decisão. a análise final. n<p

egbutter
fonte
2
+1 e agora estou inclinado a concordar que de fato minha pergunta original não é tão importante dado essas outras questões
Peter Ellis