Comparando modelos de regressão logística binária aninhada quando é grande

10

Para melhor fazer minha pergunta, forneci algumas das saídas de um modelo com 16 variáveis ​​( fit) e um modelo com 17 variáveis ​​( fit2) abaixo (todas as variáveis ​​preditivas nesses modelos são contínuas, onde a única diferença entre esses modelos é que fitnão contém a variável 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

Eu usei o rmspacote de Frank Harrell para construir esses lrmmodelos. Como você pode ver, esses modelos não parecem variar muito, se é que existem , entre os índices de discriminação e a discriminação de classificação. Índices ; no entanto, usando lrtest(fit,fit2), fui fornecido com os seguintes resultados:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

Como tal, rejeitaríamos a hipótese nula deste teste de razão de verossimilhança; no entanto, eu assumiria que isso provavelmente se deve ao grande tamanho da amostra ( n = 102849), pois esses modelos parecem ter um desempenho semelhante. Além disso, estou interessado em encontrar uma maneira melhor de comparar formalmente os modelos de regressão logística binária aninhada quando n for grande.

Aprecio muito qualquer feedback, scripts R ou documentação que possa me orientar na direção certa em termos de comparação desses tipos de modelos aninhados! Obrigado!

Matt Reichenbach
fonte
Qual é o objetivo de remover a variável 17?
Michael M
Este é um exemplo de brinquedo; no entanto, normalmente me pedem para criar modelos com 8 a 12 variáveis, e remover as variáveis ​​que não contribuem para um modelo é um interesse primário para mim. A variável 17 parece significar muito pouco para o modelo como um todo (em termos de previsibilidade), mas o teste da razão de verossimilhança nos diz que há uma diferença significativa entre os dois modelos (provavelmente devido ao grande n em vez de uma diferença real nesses dois modelos). Como tal, eu estou esperando para encontrar uma maneira de comparar estes dois modelos (encontrar um método que não indicam uma diferença entre esses dois modelos)
Matt Reichenbach
(1) não sei se entendi bem o que você está procurando. Mas na medicina a questão do uso de discriminação como estatística c está bem estabelecida, a estatística c pode ser inalterada mesmo com adição de variável significativa e levou ao desenvolvimento de índices de reclassificação ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) o AIC / BIC é semelhante? vários critérios de ganho de informações variáveis ​​podem ser mais úteis que os critérios de discriminação.
charles
11
Eu acho que há um erro de digitação no seu primeiro parágrafo. Afirma-se que fit2é um modelo de 17 variáveis, mas também é o modelo que omite V17. Você pode querer edith isso.
Tomka
11
@ tomka, mudei fit2para fitno exemplo acima conforme sua correção. Obrigado!
Matt Reichenbach

Respostas:

6

(1) Existe uma extensa literatura sobre por que se deve preferir modelos completos a modelos restritos / parcimoniosos. Meu entendimento são poucas razões para preferir o modelo parcimonioso. No entanto, modelos maiores podem não ser viáveis ​​para muitas aplicações clínicas.

(2) Até onde eu sei, os índices de Discriminação / Discriminação não são (? Não deveriam ser) usados ​​como parâmetro de seleção de modelo / variável. Eles não se destinam a esse uso e, como resultado, pode não haver muita literatura sobre o motivo pelo qual não devem ser usados ​​para a construção de modelos.

(3) Os modelos parcimoniosos podem ter limitações que não são prontamente aparentes. Eles podem ser menos bem calibrados que os modelos maiores; a validade externa / interna pode ser reduzida.

(4) A estatística c pode não ser ideal na avaliação de modelos que predizem risco futuro ou estratificam indivíduos em categorias de risco. Nesse cenário, a calibração é tão importante para a avaliação precisa do risco. Por exemplo, um biomarcador com uma razão de chances de 3 pode ter pouco efeito no estatístico, mas um nível aumentado pode mudar o risco cardiovascular estimado em 10 anos para um paciente individual de 8% para 24%

Cook NR; Uso e uso incorreto da curva ROC na literatura médica. Circulação. 115 2007: 928-935.

(5) Sabe-se que a AUC / estatística-c / discriminação é insensível a variáveis ​​preditoras significativas. Isso é discutido na referência de Cook acima e a força motivadora por trás do desenvolvimento do índice líquido de reclassificação. Também discutido em Cook acima.

(6) Grandes conjuntos de dados ainda podem levar a modelos maiores do que o desejado, se forem utilizados métodos padrão de seleção de variáveis. Nos procedimentos de seleção gradual, geralmente é utilizado um valor de p de 0,05. Mas não há nada intrínseco nesse valor que signifique que você deva escolher esse valor. Com conjuntos de dados menores, um valor p maior (0,2) pode ser mais apropriado; em conjuntos de dados maiores, um valor menor pode ser apropriado (0,01 foi usado para o conjunto de dados GUSTO I por esse motivo).

(7) Embora o AIC seja frequentemente usado para seleção de modelos e seja mais bem suportado pela literatura, o BIC pode ser uma alternativa válida em conjuntos de dados maiores. Para a seleção do modelo BIC, o qui-quadrado deve exceder log (n), resultando em modelos menores em conjuntos de dados maiores. (Mallow's pode ter características semelhantes)

(8) Mas se você quer apenas um máximo de 10 ou 12 variáveis, a solução mais fácil é algo como bestglmou leapspacotes: você acabou de definir o número máximo de variáveis ​​que deseja considerar.

(9) se você quiser apenas um teste que faça com que os dois modelos pareçam iguais e não esteja muito preocupado com os detalhes, provavelmente poderá comparar a AUC dos dois modelos. Alguns pacotes oferecem um valor-p para a comparação. Não parece aconselhável.

Ambler G (2002) Simplificando um modelo prognóstico: um estudo de simulação baseado em dados clínicos
Cook NR; Uso e uso incorreto da curva ROC na literatura médica. Circulação. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Sobre critérios para avaliação de modelos de risco absoluto. Biostat. 6 2005: 227-239.

(10) Após a construção do modelo, os índices c-statistics / dizimation podem não ser a melhor abordagem para comparar modelos e têm limitações bem documentadas. As comparações provavelmente também devem incluir, no mínimo, calibração e índice de reclassificação.

Steyerber (2010) Avaliando o desempenho de modelos de previsão: uma estrutura para algumas medidas tradicionais e inovadoras

(11) Pode ser uma boa idéia ir além do acima e usar medidas analíticas de decisão.

Vickers AJ, Elkin EB. Análise de curva de decisão: um novo método para avaliar modelos de previsão. Med Decis Making. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Usando curvas de utilidade relativa para avaliar a previsão de risco. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Avaliação de marcadores e modelos de previsão de risco: visão geral das relações entre NRI e medidas analíticas de decisão. Med Decis Making. 2013; 33: 490-501

--- Atualização --- Acho o artigo Vickers o mais interessante. Mas isso ainda não foi amplamente aceito, apesar de muitos editoriais. Portanto, pode não ser de muita utilidade prática. Os artigos de Cook e Steyerberg são muito mais práticos.

Ninguém gosta de seleção gradual. Certamente não vou advogar por isso. Eu poderia enfatizar que a maioria das críticas do stepwise pressupõe EPV <50 e uma escolha entre um modelo completo ou pré-especificado e um modelo reduzido. Se EPV> 50 e houver um compromisso com um modelo de redução, a análise de custo-benefício pode ser diferente.

O pensamento fraco por trás da comparação das estatísticas-c é que elas podem não ser diferentes, e eu me lembro que esse teste foi significativamente fraco. Mas agora não consigo encontrar a referência, por isso pode estar muito longe disso.

Charles
fonte
(1) Estou ciente de que os modelos completos são preferidos, mas tenho mais de 1k vars para escolher e sou obrigado a criar esses modelos menores devido a requisitos específicos do setor. (2) Isso faz sentido! (3) Concordado! (4) Verdadeiro (5) Interessante
Matt Reichenbach
(6) acordado; no entanto, procedimentos passo a passo são muito questionáveis ​​e, quanto menor o valor de p , mais tendenciosos esses tipos de modelos se tornam, independentemente do tamanho da amostra. (7) “Para a seleção do modelo BIC, o qui-quadrado deve exceder log (n)”, isso parece muito útil. Obrigado! (8) bestglme leapspacotes são muito caros em termos de computação e levam dias para serem executados com conjuntos de dados como os com os quais trabalho, mas obrigado pelas idéias em potencial.
Matt Reichenbach
(9) Esses valores de p seriam significativos mesmo se os modelos fossem quase exatamente os mesmos devido ao grande tamanho da amostra. (10) Preciso pesquisar mais sobre o índice de calibração e reclassificação, obrigado! (11) Estou muito interessado em ler esses artigos. Você recomendaria que eu iniciasse com Vickers? Obrigado!
Matt Reichenbach
5

Uma opção é usar medidas pseudo-quadrado R para ambos os modelos. Uma forte diferença no pseudo-quadrado R sugere que o ajuste do modelo diminui fortemente ao omitir V17.

Existem diferentes tipos de quadrados pseudo-R disponíveis. Uma visão geral pode ser encontrada aqui, por exemplo:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Uma medida popular é o Nagelkerke R-square. Varia entre 0 e 1 e, com cuidado, pode ser interpretado como R ao quadrado a partir de um modelo de regressão linear simples. Ele se baseia em uma taxa transformada de probabilidade estimada do modelo completo para o modelo somente de interceptação.

Você pode estimar fite fit2, respectivamente, e comparar o tamanho relativo para obter uma indicação do seu problema. Um quadrado R Nagelkerke substancialmente mais alto fitsugere que fit2perde muito poder preditivo por omissão do V17.

lrmNo statsvalor oferece de Nagelkerke quadrado-R. Portanto, dar fit$statsdeve fornecer uma estimativa. Veja também ?lrm.

tomka
fonte
Eu estou familiarizado com a praça R de Nagelkerke; no entanto, minha pergunta está no que é "um Nagelkerke R-Square substancialmente mais alto para fit"? No exemplo acima, há uma diferença de 0,001, pois temos o quadrado R de Nagelkerke de 0,173 e 0,174 para fite fit2, respectivamente. Você tem alguma referência sobre o que é "um Nagelkerke R-Square substancialmente mais alto"? Obrigado!
Matt Reichenbach
@ Matt: Eu acho que não há diretrizes generalizadas para interpretar as medidas de R² de Nagelkerke ou outras medidas pseudo-R². No entanto, note que é uma medida transformada de 'redução de probabilidade' pela inclusão de covariáveis ​​no modelo somente de interceptação, o que o torna semelhante à 'variância explicada' indicada pelo padrão R2 na regressão linear. Nesse sentido, eu interpretaria a diferença .173 / .174 como muito pequena. Uma diferença mais forte seria sth. ponte de deciles. No entanto, sugiro estimar outras medidas de pseudo R², como McFadden ou Cox / Snell, para verificar a robustez dessa conclusão.
Tomka
Concordo que essa diferença é muito pequena, mas gostaria de encontrar uma referência que indique o que é uma diferença "pequena" ... Agradeço seus pensamentos. Obrigado novamente!
Matt Reichenbach
11
sem problemas! desculpe por não votar mais cedo! Vou postar novamente, se encontrar uma resposta sobre a diferença "pequena" em termos de pseduo R-quadrado! obrigado!
Matt Reichenbach
-1

Acabei de ler sobre isso. A maneira correta de fazer isso é usar a saída final do modelo da glm de R e procurar "Desvio residual:" e derivar o delta entre os dois modelos e usar esse valor em um teste qui-quadrado usando df igual ao número de termos preditores descartados. E esse é o seu valor de p.

Modelagem de Regressão Aplicada Iaian Pardoe 2ª edição 2012 pg 270

thistleknot
fonte