Medida da variação explicada para Poisson GLM (função log-link)

Estou procurando uma medida apropriada da "variação explicada" de um Poisson GLM (usando uma função de log-link).

Encontrei vários recursos diferentes (neste site e em outros lugares) que discutem várias medidas pseudo- , mas quase todos os sites mencionam as medidas em relação a uma função de logit-link, e eles não discuta se as medidas de pseudo- são apropriadas para outras funções de link, como log-link para minha distribuição de Poission GLM. $R^2$ $R^2$

Por exemplo, aqui estão alguns dos sites que encontrei:

Qual pseudo- é a medida a ser relatada para regressão logística (Cox & Snell ou Nagelkerke)? $R^2$

http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Minha pergunta é: Algum dos métodos discutidos nesses links (em particular, as perguntas frequentes na página da UCLA) são apropriados para um GLP de Poission (usando uma função de link de log)? Algum método específico é mais apropriado e / ou usado de maneira padrão do que qualquer outro método?

Alguns antecedentes:

Isto é para um trabalho de pesquisa em que eu estou usando um Poission GLM para analisar dados neurais. Estou usando os desvios dos modelos (calculados assumindo uma distribuição de Poission) para comparar dois modelos: Um modelo (A) que inclui 5 parâmetros que foram deixados de fora do outro modelo (B). Meu interesse (e o foco do artigo) é mostrar que esses 5 parâmetros melhoram estatisticamente o ajuste do modelo. No entanto, um dos revisores gostaria de uma indicação de quão bem os dois modelos se encaixam nos dados.

Se eu estava usando o OLS para ajustar meus dados, o revisor está solicitando efetivamente o valor para o modelo com os 5 parâmetros e sem os 5 parâmetros, para indicar quão bem um dos modelos explica a variação. Parece um pedido razoável para mim. Digamos que, hipoteticamente, o modelo B tenha um de 0,05 e o modelo A tenha um de 0,25: mesmo que isso possa ser uma melhoria estatisticamente significativa, nenhum dos modelos faz um bom trabalho ao explicar os dados. Alternativamente, se o modelo B tem um de 0,5 e o modelo A tem um de 0,7, isso pode ser interpretado de uma maneira muito diferente. Estou procurando a medida mais apropriada que possa ser aplicada de maneira semelhante ao meu GLM. $R^2$ $R^2$ $R^2$ $R^2$ $R^2$

generalized-linear-model poisson-distribution r-squared Benjamin Kraus
fonte

Por que um BIC não funcionaria ou um teste da diferença nas probabilidades de log, principalmente porque um é uma versão aninhada do outro?

Mike Hunter

Isso é um pouco tarde para meus propósitos (o artigo foi publicado on-line na última quarta-feira), mas para constar: estou usando a diferença nas probabilidades de log como a medida principal, mas um revisor queria uma medida de "variação explicada" , portanto, no interesse de apaziguar os revisores, tentei criar algo. Acabei com algo como o que nukimov sugeriu abaixo.

Benjamin Kraus

McCullagh e Nelder 1989 (página 34) fornecem a função de desvio para a distribuição de Poisson: $D$

D = 2 \sum (y \log (\frac{y}{μ}) + (y - μ))

$D = 2 \sum\left(y \log\left(\frac{y}{\mu} \right) + (y-\mu)\right)$

onde y representa seus dados e sua saída modelada. Eu uso esta função para estimar o desvio explicado de um GLM com distribuição Poisson como esta: $\mu$ $ED$

E D = 1 - \frac{D}{total deviance}

$ED = 1 - \frac{D}{\text{total deviance}}$

onde o desvio total é dado pela mesma equação para mas usando a média de (um número único, isto é, ) em vez da matriz de estimativas modeladas . $D$ $y$ $\mathrm{mean}(y)$ $\mu$

Eu não sei se isso é 100% correto, parece lógico para mim e parece funcionar como você esperaria que uma estimativa do desvio explicado funcionasse (ele fornece 1 se você usar , etc). $\mu = y$

nukimov
fonte

Eu usei a função de desvio como a principal medida do artigo, usando exatamente a equação que você forneceu acima. No entanto, um revisor queria uma medida de "variação explicada"; portanto, no interesse de apaziguar os revisores, tentei propor algo. O que acabei foi: é a probabilidade de log de um modelo saturado, é a probabilidade de log do modelo nulo e é a probabilidade de log do modelo em questão.

p s e u d o R_{M}^{2} = \frac{l n (Γ_{M}) - l n (Γ_{N u l l})}{l n (Γ_{S a t}) - l n (Γ_{N u l l})}

$pseudoR^2_M = \frac{ln(\Gamma_M) - ln(\Gamma_{Null})} {ln(\Gamma_{Sat}) - ln(\Gamma_{Null})}$

l n (Γ_{S a t})

$ln(\Gamma_{Sat})$

l n (Γ_{N u l l})

$ln(\Gamma_{Null})$

l n (Γ_{M})

$ln(\Gamma_{M})$

Benjamin Kraus

Medida da variação explicada para Poisson GLM (função log-link)

Respostas: