Em um GLM, a probabilidade logarítmica do modelo saturado é sempre zero?

14

Como parte da saída de um modelo linear generalizado, os desvios nulo e residual são usados ​​para avaliar o modelo. Muitas vezes, vejo as fórmulas para essas quantidades expressas em termos da probabilidade logarítmica do modelo saturado, por exemplo: /stats//a/113022/22199 , Regressão logística: como obter um modelo saturado

O modelo saturado, até onde eu entendo, é o modelo que se encaixa perfeitamente na resposta observada. Assim, na maioria dos lugares que vi, a probabilidade logarítmica do modelo saturado é sempre dada como zero.

No entanto, a maneira como a fórmula do desvio é apresentada sugere que, às vezes, essa quantidade é diferente de zero. (Como se fosse zero sempre, por que se preocupar em incluí-lo?)

Em que casos pode ser diferente de zero? Se nunca é diferente de zero, por que incluí-lo na fórmula do desvio?

Alex
fonte

Respostas:

18

Se você realmente quis dizer probabilidade de log , a resposta é: nem sempre é zero.

Por exemplo, considere os dados de Poisson: yEuPoisson(μEu),Eu=1,...,n . A probabilidade logarítmica para Y=(y1,...,yn) é dada por:

()(μ;Y)=-Eu=1nμEu+Eu=1nyEuregistroμEu-Eu=1nregistro(yEu!).

Diferenciar (μ;Y) em () em relação a μEu e configurá-lo para 0 0 (isto é como obtemos a MLE para o modelo saturado):

-1+yEuμEu=0
Resolver este paraμEupara obter μ i=yi, substituindo μ ide volta em(*)paraμidá que o log-probabilidade do modelo saturado é: ( μ ;Y)=n i=1yi(logyi-1)-n i=μ^Eu=yEuμ^Eu()μEu
(μ^;Y)=Eu=1nyEu(registroyEu-1)-Eu=1nregistro(yEu!)0 0
, a menos queyEuassumir valores muito especiais.

Na página de ajuda da Rfunção glm, no item deviance, o documento explica esse problema da seguinte maneira:

deviance até uma constante, menos o dobro da probabilidade maximizada de log. Onde sensata, a constante é escolhida para que um modelo saturado tenha desvio zero.

Observe que ele mencionou que o desvio , em vez da probabilidade logarítmica do modelo saturado, é escolhido como zero.

Provavelmente, o que você realmente queria confirmar é que "o desvio do modelo saturado é sempre dado como zero", o que é verdadeiro, desde o desvio, por definição (consulte a Seção 4.5.1 da Análise de dados categóricos (2a edição) por Alan Agresti) é a estatística da razão de verossimilhança de um GLM especificado para o modelo saturado. O constantmencionado na documentação R é na verdade o dobro da probabilidade logarítmica maximizada do modelo saturado.

Com relação à sua afirmação "No entanto, a maneira como a fórmula do desvio é apresentada sugere que às vezes essa quantidade é diferente de zero.", Provavelmente se deve ao abuso do uso do termo desvio . Por exemplo, em R, a estatística da razão de verossimilhança da comparação de dois modelos arbitrários (aninhados) e M 2 também é chamada de desvio, que seria mais precisamente denominado como a diferença entre o desvio de M 1 e o desvio de M 2 , se seguimos de perto a definição apresentada no livro de Agresti.M1M2M1M2

Conclusão

  1. A probabilidade logarítmica do modelo saturado é geralmente diferente de zero.

  2. O desvio (em sua definição original) do modelo saturado é zero.

  3. A saída de desvio de softwares (como R) geralmente não é zero, pois na verdade significa outra coisa (a diferença entre desvios).


A seguir, são apresentadas a derivação para o caso geral da família exponencial e outro exemplo concreto. Suponha que os dados venham da família exponencial (consulte Estatística Moderna Aplicada com S , Capítulo ): f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7

(1)f(yi;θi,φ)=exp[Ai(yiθiγ(θi))/φ+τ(yi,φ/Ai)].
onde são pesos anteriores conhecidos e φ são parâmetros de dispersão / escala (para muitos casos, como binomial e Poisson, esse parâmetro é conhecido, enquanto para outros casos, como normal e Gamma, esse parâmetro é desconhecido). A probabilidade logarítmica é dada por: ( θ , φ ; Y ) = n i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n i = 1 τAiφ Como no exemplo de Poisson, os parâmetros do modelo saturado podem ser estimados resolvendo a seguintefunção depontuação: 0 = U ( θ i ) = ( θ , φ ; Y )
(θ,φ;Y)=i=1nAi(yiθiγ(θi))/φ+i=1nτ(yi,φ/Ai).
0=U(θi)=(θ,φ;Y)θi=Ai(yiγ(θi))φ

θ^i

()(θ^,φ;Y)=i=1nAi(yiθ^iγ(θ^i))/φ+i=1nτ(yi,φ/Ai).

()Γ(α,β)


f(y;α,β)=βαΓ(α)e-βyyα-1,y>0 0,α>0 0,β>0 0,
f(1)
φ=1α,θ=-βα,
f
f(y;θ,φ)=exp[θy-(-registro(-θ))φ+τ(y,φ)],
τ(y,φ)=-registroφφ+(1φ-1)registroy-registroΓ(φ-1).
θ^Eu=-1yEu
Eu=1n1φ[θ^EuyEu-(-registro(-θ^Eu))]=Eu=1n1φ[-1-registro(yEu)]0 0,
yEu
Zhanxiong
fonte
1
A probabilidade de log é zero se e somente se o modelo puder atribuir 100% de probabilidade a cada um dos resultados possíveis?
Alex
Não entendo bem o que você quis dizer. Mas da minha derivação você pode concluir que é0 0 se e somente se o τ é idêntico 0 0 e não há parâmetro de dispersão.
Zhanxiong 3/15/15
Sua derivação é muito boa, mas a prova formal está um pouco acima da minha cabeça no momento. Obrigado pelo seu exemplo com o modelo de Poisson. O que tirei deste exemplo é que o modelo de Poisson não pode atribuir 100% de probabilidade ao resultado observado, dado qualquer valor para a média de Poisson, portanto, a probabilidade não pode ser zero.
Alex
A instrução "modelo atribuir 100% probabilidade do resultado observado "me parece estranho. Você quer dizer que, dadas as observações y1,...,yn, e se Y é uma variável aleatória de Poisson, P(Y=y1)+P(Y=y2)++P(Y=yn)<1?
Zhanxiong
1
O que eu quis dizer é que se Y foi uma variável aleatória de Poisson, então P(Y=yEu)<1 para qualquer Euou Poisson significa, portanto, é impossível encontrar qualquer parâmetro de modelo que dê uma probabilidade logarítmica de zero para o observado. Talvez eu esteja completamente entendendo mal o conceito de modelo saturado.
Alex
4

A resposta de Zhanxiong já é ótima (+1), mas aqui está uma rápida demonstração de que a probabilidade logarítmica do modelo saturado é 0 0para uma regressão logística. Imaginei que iria postar porque não tinha visto o TeX neste site e porque acabei de escrevê-los para uma palestra.

A probabilidade é

(1)eu(y;X,β)=Eu=1nf(yEu;xEu,β)=Eu=1nπEuyEu(1-πEu)1-yEu=Eu=1n(πEu1-πEu)yEu(1-πEu)
Onde πEu=invlogit(xEuβ).

A probabilidade de log é

registroeu(y;X,β)=Eu=1nyEuregistro(πEu1-πEu)+registro(1-πEu)=Eu=1nyEulogit(πEu)+registro(1-πEu)=Eu=1nyEuxEuβ+registro(1-invlogit(xEuβ))=Eu=1nyEuxEuβ+registro(invlogit(-xEuβ))=Eu=1nyEuxEuβ-registro(1+exp[xEuβ]))

Se você tomar os derivativos em relação a todos os coeficientes que obtém

2)(β)=Eu=1nyEuxEu-exp[xEuβ](1+exp[xEuβ])xEu.

Definir esta expressão igual a 0 0 e resolvendo para βlhe dará sua resposta. Geralmente, isso não pode ser feito analiticamente, o que explica a popularidade / necessidade do uso de algoritmos iterativos para ajustar-se a esse modelo, mas no caso de um modelo saturado, isso é possível.

Para encontrar o modelo saturado, damos a cada linha seu próprio coeficiente. entãoβRn e a matriz de projeto vezes o vetor de coeficiente é

Xβ=[10 00 00 010 00 00 01][β1β2βn].

Observe que, em particular, xEuβ=βEu.

Então, pegando o ja linha da equação (2) nos fornece

Eu=1nyEuxEu,j=Eu=1nexp[xEuβ](1+exp[xEuβ])xEu,j

o que só pode ser verdade se, para cada observação Eu:

yEu=invlogit(βEu)
ou em outras palavras, cada βEu é mais ou menos infinito (se yEu é 1 ou 0 0, respectivamente). Podemos conectar esses parâmetros novamente em (1) para obter a probabilidade maximizada:
Eu=1nπ^EuyEu(1-π^Eu)1-yEu=1n=1
Claramente, o log disso é 0 0.

Taylor
fonte
Mas isso pressupõe dados não agrupados . Se você tem grupos comnEu>1(e os mesmos valores covariáveis) (em R, por exemplo, usando o formulário glm( cbind(k, n-k) ~ x + ... ), o modelo saturado não tem probabilidade de log zero.
Kjetil b halvorsen
@kjetilbhalvorsen oh good point. Eu nunca tentei isso, deixe-me verificar
Taylor
1

@ Alex: sim, está certo. pelo menos para distribuições discretas. para distribuições contínuas, tudo se resumiria a deixar a densidade igual a 1, o que não é necessariamente significativo e, portanto, não é uma coisa sensata a se tentar alcançar. de maneira um pouco mais geral, a probabilidade logarítmica do modelo saturado fornece um limite superior para o desempenho de qualquer modelo que siga sua suposição da família de distribuição subjacente. Em outras palavras, a probabilidade logarítmica de um modelo binomial saturado é "o melhor possível" para o conjunto de dados fornecido (X, Y), assumindo que Y é binomial. Faz sentido comparar seu modelo glm com esse limite superior em oposição a, digamos, 100% (ou similar), já que seu modelo é inerentemente restringido por sua suposição sobre a distribuição de respostas.

bettmensch88
fonte