Qual pseudo- é a medida a ser relatada para regressão logística (Cox & Snell ou Nagelkerke)?

55

Eu tenho SPSSsaída para um modelo de regressão logística. A saída relata duas medidas para o ajuste do modelo Cox & Snelle Nagelkerke.

Então, como regra geral, quais dessas medidas R² você reportaria como o modelo se encaixa?

Ou, qual desses índices de ajuste é o que geralmente é relatado em periódicos?


Alguns antecedentes: A regressão tenta prever a presença ou ausência de um pássaro (capercaillie) de algumas variáveis ​​ambientais (por exemplo, inclinação, cobertura vegetal, ...). Infelizmente, o pássaro não apareceu com muita frequência (35 acertos a 468 faltas), portanto a regressão apresenta um desempenho bastante ruim. Cox & Snell é 0,09, Nagelkerke, 0,23.

O assunto são ciências ambientais ou ecologia.

Henrik
fonte
3
O excelente site de ajuda sobre estatísticas da UCLA possui uma excelente página explicando os vários pseudo- R2 e como eles se relacionam.
gung - Reintegrar Monica
Aqui estão dois links que discutem um algoritmo não paramétrico exato que maximiza a precisão dos modelos de regressão logística. Se você usar esse método com seus dados, ele aumentará o desempenho da classificação do seu modelo de regressão logística quando aplicado à amostra. Exemplo 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… Exemplo 2: epm.sagepub.com/content/54/1/73.abstract
user31256
11
Novo link da UCLA: stats.idre.ucla.edu/other/mult-pkg/faq/general/…
Aaron - Reinstate Monica

Respostas:

74

Normalmente, eu não relataria . Hosmer e Lemeshow, em seu livro Applied Logistic Regression (2nd Ed.), Explicam por que:R2

Em geral, [ medidas ] são baseadas em várias comparações dos valores previstos do modelo ajustado com os do [modelo base], o modelo sem dados ou somente interceptar e, como resultado, não avaliam a qualidade de -em forma. Pensamos que uma verdadeira medida de ajuste é estritamente baseada em uma comparação dos valores observados com os previstos do modelo ajustado.R2

[Na p. 164.]

Em relação às várias versões ML de , a estatística "pseudo ", eles mencionam que não é "recomendado para uso rotineiro, pois não é tão intuitivamente fácil de explicar", mas se sente obrigado a descrevê-lo porque vários pacotes de software relatam isso.R 2R2R2

Eles concluem essa discussão escrevendo,

... baixos valores de na regressão logística são a norma e isso apresenta um problema ao relatar seus valores a uma audiência acostumada a ver valores de regressão linear. ... Assim [argumentando por referência a exemplos em execução no texto], não recomendamos a publicação rotineira de valores com resultados de modelos logísticos adequados. No entanto, eles podem ser úteis no estado de construção do modelo como uma estatística para avaliar modelos concorrentes.R 2R2R2

[Na p. 167.]

Minha experiência com alguns grandes modelos logísticos (registros de 100k a 300k, 100 - 300 variáveis ​​explicativas) foi exatamente como a H&L descreve. Eu poderia alcançar relativamente alto com meus dados, até cerca de 0,40. Eles correspondiam a taxas de erro de classificação entre 3% e 15% (falsos negativos e falsos positivos, equilibrados, conforme confirmado usando 50% de conjuntos de dados de espera). Como a H&L sugeriu, eu tive que gastar muito tempo desiludindo o cliente (um consultor sofisticado que conhecia ) sobre e fazendo com que ele se concentrasse no que importava na análise (o erro de classificação taxas). Posso recomendar calorosamente a descrição dos resultados de sua análise sem referência a , que é mais provável que engane do que não.R 2 R 2 R 2R2R2R2R2

whuber
fonte
11
(+1) Eu estava inicialmente pensando em expandir minha resposta (que veio logo após a sua), mas definitivamente sua resposta é auto-suficiente.
chl
obrigado por isso, útil para um projeto no qual estou trabalhando atualmente também - e totalmente faz sentido.
precisa
11
@ Whuber: Eu também tendem a gravitar em direção ao classif correto. mas tenho visto inúmeras referências em livros e sites alertando os analistas para não confiar neles e enfatizando que o pseudo-rsq, apesar de suas limitações, é uma métrica mais justa. Frequentemente leio algo que parece confirmado até certo ponto em minhas próprias análises: que, com a adição de um determinado preditor, o pseudo-rsq pode subir (e outras métricas indicarão um benefício da adição) enquanto a taxa de classificação correta falha, e que não se deve confiar no último. Você já pensou nisso?
Rolando2
4
@ rolando2 Sim, eu tenho. Isso levanta a questão de quanto o pseudo- deve subir para justificar a inclusão de variáveis. Suspeito que sua "taxa de classificação correta" possa se referir à taxa dentro da amostra , que obviamente é tendenciosa. Se estiver correto, o que você lê apenas compara duas estatísticas inferiores. A taxa fora da amostra é um indicador muito mais útil que o pseudo- . R2R2
whuber
11
+1. Além disso, para expandir uma parte sutil da sua resposta, você menciona as taxas de erro de classificação , que são plurais e não devem ser confundidas com precisão . Existem muitos tipos diferentes de cálculos que podem surgir de uma matriz de confusão - precisão , taxa de falsos positivos , precisão etc. - e a escolha de quem depende depende da aplicação. Além disso, você faz a distinção de fora da amostra , que é diferente da validação cruzada , mas às vezes confundida com ela.
Wayne
27

Ambos os índices são medidas de força de associação (ou seja, se algum preditor está associado ao resultado, como em um teste de RL) e podem ser usados ​​para quantificar a capacidade preditiva ou o desempenho do modelo. Um único preditor pode ter um efeito significativo no resultado, mas pode não ser necessariamente tão útil para prever a resposta individual , daí a necessidade de avaliar o desempenho do modelo como um todo (por exemplo, o modelo nulo). O Nagelkerke é útil porque possui um valor máximo de 1,0, como disse Srikant. Esta é apenas uma versão normalizada do calculada a partir da razão de verossimilhança,R 2 R 2 LR = 1 - exp ( - LR / n )R2R2RLR2=1exp(LR/n), que tem conexão com a estatística de Wald para associação geral, conforme proposto originalmente por Cox e Snell. Outros índices de capacidade preditiva são o escore de Brier, o índice C (probabilidade de concordância ou área ROC) ou D de Somers, os dois últimos fornecendo uma melhor medida de discriminação preditiva.

As únicas suposições feitas na regressão logística são as de linearidade e aditividade (+ independência). Embora muitos testes globais de qualidade do ajuste (como o teste Hosmer & Lemeshow , mas veja meu comentário no @onestop) tenham sido propostos, eles geralmente não têm energia. Para avaliar o ajuste do modelo, é melhor confiar em critérios visuais (estimativas estratificadas, suavização não paramétrica) que ajudam a identificar a partida local ou global entre resultados previstos e observados (por exemplo, não linearidade ou interação), e isso é amplamente detalhado no RMS de Harrell apostila . Sobre um assunto relacionado (testes de calibração), Steyerberg ( Clinical Prediction Modelsχ2, 2009) aponta a mesma abordagem para avaliar a concordância entre os resultados observados e as probabilidades previstas:

A calibração está relacionada à qualidade do ajuste, que se refere à capacidade de um modelo de ajustar um determinado conjunto de dados. Normalmente, não existe um teste único de qualidade de ajuste que tenha bom poder contra todos os tipos de falta de ajuste de um modelo de previsão. Exemplos de falta de ajuste são não linearidades perdidas, interações ou uma função de link inadequada entre o preditor linear e o resultado. A qualidade do ajuste pode ser testada com uma estatística . (p. 274)χ2

Ele também sugere confiar na diferença absoluta entre os resultados observados suavizados e as probabilidades previstas visualmente ou com a chamada estatística E de Harrell.

Mais detalhes podem ser encontrados no livro de Harrell, Regression Modeling Strategies (pp. 203-205, 230-244, 247-249). Para uma discussão mais recente, consulte também

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ e Kattan, MW (2010). Avaliando o desempenho dos modelos de previsão, uma estrutura para medidas tradicionais e inovadoras . Epidemiology , 21 (1) , 128-138.

chl
fonte
você poderia elaborar a distinção entre "qualidade do ajuste" e força da associação ou capacidade preditiva?
Andy W
@ Andy Obrigado por apontar isso. Percebo depois que minha primeira frase não soa muito bem. Vou atualizar minha resposta, por favor, deixe-me saber se está tudo bem com você.
chl
Obrigado pela atualização e esclarece a distinção.
Andy W
21

Eu teria pensado que o principal problema de qualquer tipo de medida para regressão logística é que você está lidando com um modelo que possui um valor de ruído conhecido. Isso é diferente da regressão linear padrão, onde o nível de ruído é geralmente tratado como desconhecido. Pois podemos escrever uma função de densidade de probabilidade glm como:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Onde São funções conhecidas e para a função de link inverso . Se definirmos os resíduos usuais do desvio GLM comob(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
O que temos (via razão de probabilidade qui-quadrado, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Onde é a dimensão de . Para regressão logística, temos , que é conhecido. Portanto, podemos usar isso para decidir sobre um nível definido de residual que é "aceitável" ou "razoável". Isso geralmente não pode ser feito para a regressão do OLS (a menos que você tenha informações anteriores sobre o ruído). Ou seja, esperamos que cada desvio residual seja de aproximadamente . Muitos e é provável que estejam faltando efeitos importantes no modelo (falta de ajuste); muitos e é provável que haja efeitos redundantes ou espúrios no modelo (ajuste excessivo). (isso também pode significar má especificação do modelo).pβϕ=11di21di21

Agora, isso significa que o problema do pseudo- é que ele não leva em conta que o nível de variação binomial é previsível (desde que a estrutura do erro binomial não esteja sendo questionada). Assim, mesmo que o Nagelkerke varie de a , ele ainda não está dimensionado corretamente. Além disso, não vejo por que eles são chamados de pseudo se não são iguais ao usual quando você ajusta um "GLM" com um link de identidade e erro normal. Por exemplo, o quadrado equivalente de cox-snell R para erro normal (usando a estimativa de variação REML) é dado por:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

O que certamente parece estranho.

Penso que a melhor medida "Bondade de ajuste" é a soma dos resíduos de desvio, . Isso ocorre principalmente porque temos um objetivo a atingir.χ2

probabilityislogic
fonte
+1 Boa exposição das questões sugeridas nos comentários após a resposta de Srikant .
whuber
Dado que um GLM binomial seria adequado usando mínimos quadrados ponderados iterativamente, por que uma medida da qualidade do ajuste não relataria o R2 do ajuste de mínimos quadrados ponderados da última iteração IRLS com a qual o GLM era adequado? Como em stats.stackexchange.com/questions/412580/… ?
Tom Wenseleers
16

Achei o breve artigo de Tue Tjur "Coeficientes de determinação em modelos de regressão logística - uma nova proposta: o coeficiente de discriminação" (2009, The American Statistician ) sobre várias propostas de coeficiente de determinação em modelos logísticos bastante esclarecedoras. Ele faz um bom trabalho destacando prós e contras - e, claro, oferece uma nova definição. Muito recomendado (embora eu não tenha nenhum favorito).

S. Kolassa - Restabelecer Monica
fonte
11
Obrigado por apontar esse documento; de alguma forma eu perdi (e apareceu quando eu estava no meio de um grande projeto de regressão logística!).
whuber
3
Para o registro, essa nova definição é , que é o valor médio previsto para as respostas menos o valor médio previsto para as respostas. Pode variar de a . O tjur não dispensar o Nagelkerke pseudo , mas sugere que falta o "apelo intuitivo" apreciado por . 1 0 0 1 R 2 DD=π^¯1π^¯01001R2D
whuber
8

Eu também ia dizer 'nenhum deles', então votei na resposta do whuber.

Além de criticar R ^ 2, Hosmer e Lemeshow propuseram uma medida alternativa de adequação à regressão logística que às vezes é útil. Isso se baseia na divisão dos dados em (digamos) 10 grupos de tamanho igual (ou o mais próximo possível), ordenando a probabilidade prevista (ou equivalente, o preditor linear) e comparando o número observado com o esperado de respostas positivas em cada grupo. e realizando um teste qui-quadrado. Este 'teste de ajuste do Hosmer-Lemeshow' é implementado na maioria dos pacotes de software estatístico.

uma parada
fonte
3
O HL GoF original não é muito poderoso, pois depende da categorização da escala preditora contínua em um número arbitrário de grupos; A H&L propôs considerar o decil, mas obviamente depende do tamanho da amostra e, em algumas circunstâncias (por exemplo, modelos de TRI), muitas vezes você tem muito poucas pessoas em uma ou ambas as extremidades da escala, de modo que os pontos de corte sejam espaçados de maneira desigual. Consulte Uma comparação de testes de qualidade do ajuste para o modelo de regressão logística, Stat. Med. 1997 16 (9): 965, j.mp/aV2W6Iχ2
chl
Obrigado chi, essa é uma referência útil, embora seu link j.mp tenha me levado a um prompt de login do BiblioInserm. Aqui está um link baseado em doi: dx.doi.org/10.1002/…
onestop
Desculpe pelo link incorreto ... Lembro-me de que o Designpacote de Frank Harrell apresenta o teste alternativo H&L 1 df.
chl
3

Eu preferiria o Nagelkerke, pois este modelo se encaixa perfeitamente quando o modelo se encaixa perfeitamente, dando ao leitor uma noção de quão longe o modelo está do ajuste perfeito. A Cox & Shell não atinge 1 para o ajuste perfeito do modelo e, portanto, interpretar um valor de 0,09 é um pouco mais difícil. Consulte este URL para obter mais informações sobre o Pseudo RSquared para obter uma explicação dos vários tipos de ajustes.


fonte
8
Um "ajuste perfeito" está tão longe de ser atingível em qualquer regressão logística realista que parece injusto usá-lo como referência ou padrão.
whuber
11
@whuber True, mas você pode usar o padrão para comparar o desempenho relativo de dois modelos concorrentes. Seus pontos de baixa R ^ 2 em sua resposta e suas implicações são bons pontos, mas se você tem (por exemplo, os revisores exigem etc) para usar alguma forma de R ^ 2, em seguida, Nagelkerke é preferível.
11
@Skridant Sim, ainda o problema de revisores que querem ver e Bonferroni correção em todos os lugares ...R2
chl
@ Krikant, @ chl: Uma leitura cínica deste tópico sugeriria apenas escolher o maior R ^ 2 entre todos os relatórios de software ;-).
whuber
2
@chl É claro que é necessário oferecer respostas aos revisores / clientes, mas às vezes precisamos ser pragmáticos também. Se os leitores não interpretarem mal o R ^ 2 como falta de desempenho adequado do modelo, as questões levantadas pelo @whuber serão atenuadas em certa medida.
3

Apesar dos argumentos contra o uso de pseudo-r-quadrados, algumas pessoas, por várias razões, desejam continuar usando-os pelo menos em determinados momentos. O que internalizei das minhas leituras (e desculpe-me por não poder fornecer citações no momento) é que

  • se C&S e Nag. estão abaixo de 0,5, C&S será um indicador melhor;
    se ambos estão acima de 0,5, Nag. vai; e
    se eles montarem 0,5, pontapé.

Além disso, uma fórmula cujos resultados geralmente caem entre esses dois, mencionada por Scott Menard em Análise de regressão logística aplicada (Sage), é

[-2LL0 - (-2LL1)]/-2LL0.

Isso é indicado como "L" no gráfico abaixo.

insira a descrição da imagem aqui

rolando2
fonte
O que mostra esta imagem (o que o eixo horizontal representa)? Além disso, como a última fórmula (que parece uma estatística de proporção de verossimilhança em escala) difere exatamente do Nagelkerke ? R2
chl
Análise #: tentei várias análises com diferentes conjuntos de dados. Não tenha à mão a fórmula de Nagelkerke, mas aposto que está prontamente disponível.
Rolando2
Paul Allison aborda a fórmula de Nagelkerke, que é uma fórmula de Cox & Snell com ajuste para cima, em statisticshorizons.com/2013/02/02 . Depois de ler esse blog, e geralmente nos 2 a 3 anos desde a maior parte dessa discussão, fiquei mais convencido de que a subestimação de Cox & Snell explicava a variação e que é melhor calcular a média da C&S e do resultado de Nagelkerke.
Rolando2