Resumo: Existe alguma teoria estatística para apoiar o uso da distribuição (com graus de liberdade baseados no desvio residual) para testes de coeficientes de regressão logística, em vez da distribuição normal padrão?
Algum tempo atrás, descobri que, ao ajustar um modelo de regressão logística no SAS PROC GLIMMIX, nas configurações padrão, os coeficientes de regressão logística são testados usando uma distribuição em vez da distribuição normal padrão. Ou seja, o GLIMMIX relata uma coluna com a proporção (que chamarei de no restante desta pergunta ), mas também reporta uma coluna "graus de liberdade", bem como um valor- baseado na suposição de uma distribuição paracom graus de liberdade baseados no desvio residual - isto é, graus de liberdade = número total de observações menos número de parâmetros. No final desta pergunta, forneço algum código e saída no R e SAS para demonstração e comparação.
Isso me confundiu, já que eu pensava que, para modelos lineares generalizados, como a regressão logística, não havia teoria estatística para apoiar o uso da distribuição neste caso. Em vez disso, pensei que sabíamos sobre esse caso:
- é "aproximadamente" normalmente distribuído;
- essa aproximação pode ser ruim para amostras pequenas;
- no entanto, não se pode supor que tenha uma distribuição como podemos assumir no caso de regressão normal.
Agora, em um nível intuitivo, parece-me razoável que, se é aproximadamente normalmente distribuído, possa de fato ter alguma distribuição que seja basicamente " semelhante a ", mesmo que não seja exatamente . Portanto, o uso da distribuição aqui não parece louco. Mas o que eu quero saber é o seguinte:
- Existe de fato a teoria estatística mostrando que realmente segue uma distribuição no caso de regressão logística e / ou outros modelos lineares generalizados?
- Se não existe essa teoria, existem pelo menos trabalhos por aí mostrando que assumir uma distribuição dessa maneira funciona tão bem quanto, ou talvez até melhor do que, assumir uma distribuição normal?
De maneira mais geral, existe algum suporte real para o que o GLIMMIX está fazendo aqui, além da intuição de que provavelmente é basicamente sensato?
Código R:
summary(glm(y ~ x, data=dat, family=binomial))
Saída R:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
Código SAS:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
Saída SAS (editada / abreviada):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
Na verdade, notei pela primeira vez isso sobremodelos de regressão logística deefeitos mistosno PROC GLIMMIX, e depois descobri que o GLIMMIX também faz isso com regressão logística "vanilla".
fonte
PROC LOGISTIC
Respostas:
Tanto quanto sei, não existe tal teoria. Eu vejo regularmente argumentos ondulantes e, ocasionalmente, experimentos de simulação para apoiar essa abordagem para uma família GLM específica ou outra. As simulações são mais convincentes do que os argumentos ondulados.
Não que eu me lembre de ter visto, mas isso não está dizendo muito.
Minhas simulações de amostras pequenas (limitadas) sugerem assumir que uma distribuição t no caso logístico pode ser substancialmente pior do que assumir uma normal:
Aqui, por exemplo, estão os resultados (como gráficos de QQ) de 10.000 simulações da estatística Wald para uma regressão logística comum (isto é, efeitos fixos, não misturados) em 15 observações x equidistantes onde os parâmetros populacionais eram ambos zero. A linha vermelha é a linha y = x. Como você vê, em cada caso, o normal é uma aproximação bastante boa em um bom intervalo no meio - até os percentis 5 e 95 (1,6-1,7 s) e depois fora da distribuição real da estatística de teste. cauda substancialmente mais leve que o normal.
Portanto, para o caso logístico, eu diria que qualquer argumento para usar o t - em vez do z - parece improvável de ter sucesso nessa base, uma vez que simulações como essas tendem a sugerir que os resultados tendem a se basear na cauda mais clara lado do normal, ao invés do mais pesado de cauda.
[No entanto, eu recomendo que você não confie nas minhas simulações mais do que como um aviso para tomar cuidado - tente algumas de sua preferência, talvez por circunstâncias mais representativas de suas próprias situações típicas de seus IVs e modelos (é claro, você precisa simular o caso em que algum nulo é verdadeiro para ver qual distribuição usar sob o nulo). Eu ficaria interessado em saber como eles saem para você.]
fonte
Aqui estão algumas simulações adicionais apenas para expandir um pouco o que Glen_b já apresentou.
fonte
Bom trabalho para vocês dois. Bill Gould estudou isso em http://www.citeulike.org/user/harrelfe/article/13264166, fazendo as mesmas conclusões, em um modelo logístico binário de efeitos fixos padrão.
fonte