Para melhor fazer minha pergunta, forneci algumas das saídas de um modelo com 16 variáveis ( fit
) e um modelo com 17 variáveis ( fit2
) abaixo (todas as variáveis preditivas nesses modelos são contínuas, onde a única diferença entre esses modelos é que fit
não contém a variável 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
Eu usei o rms
pacote de Frank Harrell para construir esses lrm
modelos. Como você pode ver, esses modelos não parecem variar muito, se é que existem , entre os índices de discriminação e a discriminação de classificação. Índices ; no entanto, usando lrtest(fit,fit2)
, fui fornecido com os seguintes resultados:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
Como tal, rejeitaríamos a hipótese nula deste teste de razão de verossimilhança; no entanto, eu assumiria que isso provavelmente se deve ao grande tamanho da amostra ( n = 102849), pois esses modelos parecem ter um desempenho semelhante. Além disso, estou interessado em encontrar uma maneira melhor de comparar formalmente os modelos de regressão logística binária aninhada quando n for grande.
Aprecio muito qualquer feedback, scripts R ou documentação que possa me orientar na direção certa em termos de comparação desses tipos de modelos aninhados! Obrigado!
fonte
fit2
é um modelo de 17 variáveis, mas também é o modelo que omiteV17
. Você pode querer edith isso.fit2
parafit
no exemplo acima conforme sua correção. Obrigado!Respostas:
(1) Existe uma extensa literatura sobre por que se deve preferir modelos completos a modelos restritos / parcimoniosos. Meu entendimento são poucas razões para preferir o modelo parcimonioso. No entanto, modelos maiores podem não ser viáveis para muitas aplicações clínicas.
(2) Até onde eu sei, os índices de Discriminação / Discriminação não são (? Não deveriam ser) usados como parâmetro de seleção de modelo / variável. Eles não se destinam a esse uso e, como resultado, pode não haver muita literatura sobre o motivo pelo qual não devem ser usados para a construção de modelos.
(3) Os modelos parcimoniosos podem ter limitações que não são prontamente aparentes. Eles podem ser menos bem calibrados que os modelos maiores; a validade externa / interna pode ser reduzida.
(4) A estatística c pode não ser ideal na avaliação de modelos que predizem risco futuro ou estratificam indivíduos em categorias de risco. Nesse cenário, a calibração é tão importante para a avaliação precisa do risco. Por exemplo, um biomarcador com uma razão de chances de 3 pode ter pouco efeito no estatístico, mas um nível aumentado pode mudar o risco cardiovascular estimado em 10 anos para um paciente individual de 8% para 24%
Cook NR; Uso e uso incorreto da curva ROC na literatura médica. Circulação. 115 2007: 928-935.
(5) Sabe-se que a AUC / estatística-c / discriminação é insensível a variáveis preditoras significativas. Isso é discutido na referência de Cook acima e a força motivadora por trás do desenvolvimento do índice líquido de reclassificação. Também discutido em Cook acima.
(6) Grandes conjuntos de dados ainda podem levar a modelos maiores do que o desejado, se forem utilizados métodos padrão de seleção de variáveis. Nos procedimentos de seleção gradual, geralmente é utilizado um valor de p de 0,05. Mas não há nada intrínseco nesse valor que signifique que você deva escolher esse valor. Com conjuntos de dados menores, um valor p maior (0,2) pode ser mais apropriado; em conjuntos de dados maiores, um valor menor pode ser apropriado (0,01 foi usado para o conjunto de dados GUSTO I por esse motivo).
(7) Embora o AIC seja frequentemente usado para seleção de modelos e seja mais bem suportado pela literatura, o BIC pode ser uma alternativa válida em conjuntos de dados maiores. Para a seleção do modelo BIC, o qui-quadrado deve exceder log (n), resultando em modelos menores em conjuntos de dados maiores. (Mallow's pode ter características semelhantes)
(8) Mas se você quer apenas um máximo de 10 ou 12 variáveis, a solução mais fácil é algo como
bestglm
ouleaps
pacotes: você acabou de definir o número máximo de variáveis que deseja considerar.(9) se você quiser apenas um teste que faça com que os dois modelos pareçam iguais e não esteja muito preocupado com os detalhes, provavelmente poderá comparar a AUC dos dois modelos. Alguns pacotes oferecem um valor-p para a comparação. Não parece aconselhável.
Ambler G (2002) Simplificando um modelo prognóstico: um estudo de simulação baseado em dados clínicos
Cook NR; Uso e uso incorreto da curva ROC na literatura médica. Circulação. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Sobre critérios para avaliação de modelos de risco absoluto. Biostat. 6 2005: 227-239.
(10) Após a construção do modelo, os índices c-statistics / dizimation podem não ser a melhor abordagem para comparar modelos e têm limitações bem documentadas. As comparações provavelmente também devem incluir, no mínimo, calibração e índice de reclassificação.
Steyerber (2010) Avaliando o desempenho de modelos de previsão: uma estrutura para algumas medidas tradicionais e inovadoras
(11) Pode ser uma boa idéia ir além do acima e usar medidas analíticas de decisão.
Vickers AJ, Elkin EB. Análise de curva de decisão: um novo método para avaliar modelos de previsão. Med Decis Making. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Usando curvas de utilidade relativa para avaliar a previsão de risco. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Avaliação de marcadores e modelos de previsão de risco: visão geral das relações entre NRI e medidas analíticas de decisão. Med Decis Making. 2013; 33: 490-501
--- Atualização --- Acho o artigo Vickers o mais interessante. Mas isso ainda não foi amplamente aceito, apesar de muitos editoriais. Portanto, pode não ser de muita utilidade prática. Os artigos de Cook e Steyerberg são muito mais práticos.
Ninguém gosta de seleção gradual. Certamente não vou advogar por isso. Eu poderia enfatizar que a maioria das críticas do stepwise pressupõe EPV <50 e uma escolha entre um modelo completo ou pré-especificado e um modelo reduzido. Se EPV> 50 e houver um compromisso com um modelo de redução, a análise de custo-benefício pode ser diferente.
O pensamento fraco por trás da comparação das estatísticas-c é que elas podem não ser diferentes, e eu me lembro que esse teste foi significativamente fraco. Mas agora não consigo encontrar a referência, por isso pode estar muito longe disso.
fonte
bestglm
eleaps
pacotes são muito caros em termos de computação e levam dias para serem executados com conjuntos de dados como os com os quais trabalho, mas obrigado pelas idéias em potencial.Uma opção é usar medidas pseudo-quadrado R para ambos os modelos. Uma forte diferença no pseudo-quadrado R sugere que o ajuste do modelo diminui fortemente ao omitir V17.
Existem diferentes tipos de quadrados pseudo-R disponíveis. Uma visão geral pode ser encontrada aqui, por exemplo:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm
Uma medida popular é o Nagelkerke R-square. Varia entre 0 e 1 e, com cuidado, pode ser interpretado como R ao quadrado a partir de um modelo de regressão linear simples. Ele se baseia em uma taxa transformada de probabilidade estimada do modelo completo para o modelo somente de interceptação.
Você pode estimar
fit
efit2
, respectivamente, e comparar o tamanho relativo para obter uma indicação do seu problema. Um quadrado R Nagelkerke substancialmente mais altofit
sugere quefit2
perde muito poder preditivo por omissão do V17.lrm
Nostats
valor oferece de Nagelkerke quadrado-R. Portanto, darfit$stats
deve fornecer uma estimativa. Veja também?lrm
.fonte
fit
"? No exemplo acima, há uma diferença de 0,001, pois temos o quadrado R de Nagelkerke de 0,173 e 0,174 parafit
efit2
, respectivamente. Você tem alguma referência sobre o que é "um Nagelkerke R-Square substancialmente mais alto"? Obrigado!Acabei de ler sobre isso. A maneira correta de fazer isso é usar a saída final do modelo da glm de R e procurar "Desvio residual:" e derivar o delta entre os dois modelos e usar esse valor em um teste qui-quadrado usando df igual ao número de termos preditores descartados. E esse é o seu valor de p.
Modelagem de Regressão Aplicada Iaian Pardoe 2ª edição 2012 pg 270
fonte