Hosmer-Lemeshow vs AIC para regressão logística

12

Se o Hosmer-Lemeshow indicar uma falta de ajuste, mas o AIC for o mais baixo entre todos os modelos ... você ainda deve usar o modelo?

Se eu excluir uma variável, a estatística Hosmer-Lemeshow não é significativa (o que significa que não há falta grave de ajuste). Mas a AIC aumenta.

Edit : Eu acho que em geral, se os AICs de modelos diferentes são próximos (ou seja, ) um do outro, então eles são basicamente os mesmos. Mas os AICs são muito diferentes. Isso parece indicar que aquele com o AIC mais baixo é o que devo usar, embora o teste Hosmer-Lemeshow indique o contrário.<2

Talvez também o teste HL se aplique apenas a amostras grandes? Possui baixa potência para amostras pequenas (meu tamanho é ~ 300). Mas se estou obtendo um resultado significativo ... Isso significa que, mesmo com pouca energia, estou recebendo uma rejeição.

Faria diferença se eu usasse o AICc versus o AIC? Como você obtém AICc's no SAS? Eu sei que pode haver problemas com a multiplicidade. Mas, a priori , suponho que as variáveis ​​tenham efeito sobre o resultado.

Algum comentário?

Edit2 : Eu acho que devo usar o modelo com uma variável a menos e o AIC mais alto com HL não significativo. O motivo é que duas das variáveis ​​estão correlacionadas entre si. Então, se livrar de um faz sentido.

Thomas
fonte
Leve em consideração que todos os seus modelos podem ser lixo eletrônico.
@mbq: Como isso ajuda?
22411 Thomas
2
Bem, mesmo em um grupo de modelos não significativos, existe um com melhor AIC. De qualquer forma, não use respostas para estender sua pergunta.

Respostas:

12

O teste de Hosmer-Lemeshow é, até certo ponto, obsoleto, porque exige o armazenamento arbitrário de probabilidades previstas e não possui poder excelente para detectar falta de calibração. Também não penaliza totalmente o ajuste excessivo do modelo. Melhores métodos estão disponíveis, como Hosmer, DW; Hosmer, T.; le Cessie, S. & Lemeshow, S. Uma comparação dos testes de qualidade do ajuste para o modelo de regressão logística. Statistics in Medicine , 1997, 16 , 965-980. Sua nova medida é implementada no RrmsR2c

Frank Harrell
fonte
Então, o uso do teste da razão de verossimilhança seria melhor para avaliar a qualidade do ajuste do modelo com menor AIC? Porque este teste mostra que não há falta de ajuste.
22411 Thomas
Olhar para os AICs de mais de 2 modelos resultará em algum viés / sobreajuste da seleção. A AIC não avalia explicitamente a qualidade do ajuste, exceto no contexto que dei acima. A melhor maneira de avaliar o ajuste é demonstrar uma boa calibração usando um gráfico de calibração suave não paramétrico contínuo e mostrando poucas evidências de componentes mais complexos que podem ter feito o modelo prever melhor.
precisa
Supondo que não tenho acesso a nenhuma dessas ferramentas. O modelo A, que possui um teste HL não significativo, também possui uma variável a menos que o modelo B, que possui um teste HL significativo. Estou comparando apenas esses dois modelos. O modelo A tem o AIC mais baixo e o modelo B tem um AIC muito mais alto.
23611 Thomas
Eu quis dizer que o Modelo B tem o AIC mais baixo e o Modelo A tem um AIC muito mais alto.
Thomas
2
Não sei se você estudou todas as opções acima. Geralmente, escolhemos um modelo que possui discriminação preditiva competitiva e, em seguida, validamos que o índice de discriminação não é bom apenas por causa do ajuste excessivo, e validamos a calibração do modelo. A última etapa é melhor realizada usando uma curva de calibração não paramétrica suave de alta resolução. Todas essas coisas são implementadas no rmspacote R. E evite comparar a AIC de muitos modelos, que é apenas outra maneira de usarP-valores para selecionar variáveis. Se você estiver comparando apenas dois modelos pré-especificados, está bem.
precisa