Eu tenho SPSS
saída para um modelo de regressão logística. A saída relata duas medidas para o ajuste do modelo Cox & Snell
e Nagelkerke
.
Então, como regra geral, quais dessas medidas você reportaria como o modelo se encaixa?
Ou, qual desses índices de ajuste é o que geralmente é relatado em periódicos?
Alguns antecedentes: A regressão tenta prever a presença ou ausência de um pássaro (capercaillie) de algumas variáveis ambientais (por exemplo, inclinação, cobertura vegetal, ...). Infelizmente, o pássaro não apareceu com muita frequência (35 acertos a 468 faltas), portanto a regressão apresenta um desempenho bastante ruim. Cox & Snell é 0,09, Nagelkerke, 0,23.
O assunto são ciências ambientais ou ecologia.
logistic
goodness-of-fit
r-squared
Henrik
fonte
fonte
Respostas:
Normalmente, eu não relataria . Hosmer e Lemeshow, em seu livro Applied Logistic Regression (2nd Ed.), Explicam por que:R2
[Na p. 164.]
Em relação às várias versões ML de , a estatística "pseudo ", eles mencionam que não é "recomendado para uso rotineiro, pois não é tão intuitivamente fácil de explicar", mas se sente obrigado a descrevê-lo porque vários pacotes de software relatam isso.R 2R2 R2
Eles concluem essa discussão escrevendo,
[Na p. 167.]
Minha experiência com alguns grandes modelos logísticos (registros de 100k a 300k, 100 - 300 variáveis explicativas) foi exatamente como a H&L descreve. Eu poderia alcançar relativamente alto com meus dados, até cerca de 0,40. Eles correspondiam a taxas de erro de classificação entre 3% e 15% (falsos negativos e falsos positivos, equilibrados, conforme confirmado usando 50% de conjuntos de dados de espera). Como a H&L sugeriu, eu tive que gastar muito tempo desiludindo o cliente (um consultor sofisticado que conhecia ) sobre e fazendo com que ele se concentrasse no que importava na análise (o erro de classificação taxas). Posso recomendar calorosamente a descrição dos resultados de sua análise sem referência a , que é mais provável que engane do que não.R 2 R 2 R 2R2 R2 R2 R2
fonte
Ambos os índices são medidas de força de associação (ou seja, se algum preditor está associado ao resultado, como em um teste de RL) e podem ser usados para quantificar a capacidade preditiva ou o desempenho do modelo. Um único preditor pode ter um efeito significativo no resultado, mas pode não ser necessariamente tão útil para prever a resposta individual , daí a necessidade de avaliar o desempenho do modelo como um todo (por exemplo, o modelo nulo). O Nagelkerke é útil porque possui um valor máximo de 1,0, como disse Srikant. Esta é apenas uma versão normalizada do calculada a partir da razão de verossimilhança,R 2 R 2 LR = 1 - exp ( - LR / n )R2 R2 R2LR=1−exp(−LR/n) , que tem conexão com a estatística de Wald para associação geral, conforme proposto originalmente por Cox e Snell. Outros índices de capacidade preditiva são o escore de Brier, o índice C (probabilidade de concordância ou área ROC) ou D de Somers, os dois últimos fornecendo uma melhor medida de discriminação preditiva.
As únicas suposições feitas na regressão logística são as de linearidade e aditividade (+ independência). Embora muitos testes globais de qualidade do ajuste (como o teste Hosmer & Lemeshow , mas veja meu comentário no @onestop) tenham sido propostos, eles geralmente não têm energia. Para avaliar o ajuste do modelo, é melhor confiar em critérios visuais (estimativas estratificadas, suavização não paramétrica) que ajudam a identificar a partida local ou global entre resultados previstos e observados (por exemplo, não linearidade ou interação), e isso é amplamente detalhado no RMS de Harrell apostila . Sobre um assunto relacionado (testes de calibração), Steyerberg ( Clinical Prediction Modelsχ2 , 2009) aponta a mesma abordagem para avaliar a concordância entre os resultados observados e as probabilidades previstas:
Ele também sugere confiar na diferença absoluta entre os resultados observados suavizados e as probabilidades previstas visualmente ou com a chamada estatística E de Harrell.
Mais detalhes podem ser encontrados no livro de Harrell, Regression Modeling Strategies (pp. 203-205, 230-244, 247-249). Para uma discussão mais recente, consulte também
Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ e Kattan, MW (2010). Avaliando o desempenho dos modelos de previsão, uma estrutura para medidas tradicionais e inovadoras . Epidemiology , 21 (1) , 128-138.
fonte
Eu teria pensado que o principal problema de qualquer tipo de medida para regressão logística é que você está lidando com um modelo que possui um valor de ruído conhecido. Isso é diferente da regressão linear padrão, onde o nível de ruído é geralmente tratado como desconhecido. Pois podemos escrever uma função de densidade de probabilidade glm como:R2
Onde São funções conhecidas e para a função de link inverso . Se definirmos os resíduos usuais do desvio GLM comob(.), c(.), d(.;.) μi=g−1(xTiβ) g−1(.)
Onde é a dimensão de . Para regressão logística, temos , que é conhecido. Portanto, podemos usar isso para decidir sobre um nível definido de residual que é "aceitável" ou "razoável". Isso geralmente não pode ser feito para a regressão do OLS (a menos que você tenha informações anteriores sobre o ruído). Ou seja, esperamos que cada desvio residual seja de aproximadamente . Muitos e é provável que estejam faltando efeitos importantes no modelo (falta de ajuste); muitos e é provável que haja efeitos redundantes ou espúrios no modelo (ajuste excessivo). (isso também pode significar má especificação do modelo).p β ϕ=1 1 d2i≫1 d2i≪1
Agora, isso significa que o problema do pseudo- é que ele não leva em conta que o nível de variação binomial é previsível (desde que a estrutura do erro binomial não esteja sendo questionada). Assim, mesmo que o Nagelkerke varie de a , ele ainda não está dimensionado corretamente. Além disso, não vejo por que eles são chamados de pseudo se não são iguais ao usual quando você ajusta um "GLM" com um link de identidade e erro normal. Por exemplo, o quadrado equivalente de cox-snell R para erro normal (usando a estimativa de variação REML) é dado por:R2 0 1 R2 R2
O que certamente parece estranho.
Penso que a melhor medida "Bondade de ajuste" é a soma dos resíduos de desvio, . Isso ocorre principalmente porque temos um objetivo a atingir.χ2
fonte
Achei o breve artigo de Tue Tjur "Coeficientes de determinação em modelos de regressão logística - uma nova proposta: o coeficiente de discriminação" (2009, The American Statistician ) sobre várias propostas de coeficiente de determinação em modelos logísticos bastante esclarecedoras. Ele faz um bom trabalho destacando prós e contras - e, claro, oferece uma nova definição. Muito recomendado (embora eu não tenha nenhum favorito).
fonte
Eu também ia dizer 'nenhum deles', então votei na resposta do whuber.
Além de criticar R ^ 2, Hosmer e Lemeshow propuseram uma medida alternativa de adequação à regressão logística que às vezes é útil. Isso se baseia na divisão dos dados em (digamos) 10 grupos de tamanho igual (ou o mais próximo possível), ordenando a probabilidade prevista (ou equivalente, o preditor linear) e comparando o número observado com o esperado de respostas positivas em cada grupo. e realizando um teste qui-quadrado. Este 'teste de ajuste do Hosmer-Lemeshow' é implementado na maioria dos pacotes de software estatístico.
fonte
Design
pacote de Frank Harrell apresenta o teste alternativo H&L 1 df.Eu preferiria o Nagelkerke, pois este modelo se encaixa perfeitamente quando o modelo se encaixa perfeitamente, dando ao leitor uma noção de quão longe o modelo está do ajuste perfeito. A Cox & Shell não atinge 1 para o ajuste perfeito do modelo e, portanto, interpretar um valor de 0,09 é um pouco mais difícil. Consulte este URL para obter mais informações sobre o Pseudo RSquared para obter uma explicação dos vários tipos de ajustes.
fonte
Apesar dos argumentos contra o uso de pseudo-r-quadrados, algumas pessoas, por várias razões, desejam continuar usando-os pelo menos em determinados momentos. O que internalizei das minhas leituras (e desculpe-me por não poder fornecer citações no momento) é que
se ambos estão acima de 0,5, Nag. vai; e
se eles montarem 0,5, pontapé.
Além disso, uma fórmula cujos resultados geralmente caem entre esses dois, mencionada por Scott Menard em Análise de regressão logística aplicada (Sage), é
Isso é indicado como "L" no gráfico abaixo.
fonte