Se você realmente quis dizer probabilidade de log , a resposta é: nem sempre é zero.
Por exemplo, considere os dados de Poisson: yEuIsson Poisson ( μEu) , i = 1 , … , n . A probabilidade logarítmica para Y= ( y1, … , Yn) é dada por:
ℓ ( μ ; Y) = - ∑i = 1nμEu+ ∑i = 1nyEuregistroμEu- ∑i = 1nregistro( yEu! ) .( ∗ )
Diferenciar ℓ ( μ ; Y) em ( ∗ ) em relação a μEu e configurá-lo para 0 0 (isto é como obtemos a MLE para o modelo saturado):
- 1 + yEuμEu= 0.
Resolver este para
μEupara obter
μ i=yi, substituindo
μ ide volta em
(*)para
μidá que o log-probabilidade do modelo saturado é:
ℓ( μ ;Y)=n ∑ i=1yi(logyi-1)-n ∑ i=μ^Eu= yEuμ^Eu( ∗ )μEuℓ ( μ^; Y) = ∑i = 1nyEu( logyEu- 1 ) - ∑i = 1nregistro( yEu! ) ≠ 0
, a menos que
yEuassumir valores muito especiais.
Na página de ajuda da R
função glm
, no item deviance
, o documento explica esse problema da seguinte maneira:
deviance
até uma constante, menos o dobro da probabilidade maximizada de log. Onde sensata, a constante é escolhida para que um modelo saturado tenha desvio zero.
Observe que ele mencionou que o desvio , em vez da probabilidade logarítmica do modelo saturado, é escolhido como zero.
Provavelmente, o que você realmente queria confirmar é que "o desvio do modelo saturado é sempre dado como zero", o que é verdadeiro, desde o desvio, por definição (consulte a Seção 4.5.1 da Análise de dados categóricos (2a edição) por Alan Agresti) é a estatística da razão de verossimilhança de um GLM especificado para o modelo saturado. O constant
mencionado na documentação R é na verdade o dobro da probabilidade logarítmica maximizada do modelo saturado.
Com relação à sua afirmação "No entanto, a maneira como a fórmula do desvio é apresentada sugere que às vezes essa quantidade é diferente de zero.", Provavelmente se deve ao abuso do uso do termo desvio . Por exemplo, em R, a estatística da razão de verossimilhança da comparação de dois modelos arbitrários (aninhados) e M 2 também é chamada de desvio, que seria mais precisamente denominado como a diferença entre o desvio de M 1 e o desvio de M 2 , se seguimos de perto a definição apresentada no livro de Agresti.M1M2M1M2
Conclusão
A probabilidade logarítmica do modelo saturado é geralmente diferente de zero.
O desvio (em sua definição original) do modelo saturado é zero.
A saída de desvio de softwares (como R) geralmente não é zero, pois na verdade significa outra coisa (a diferença entre desvios).
A seguir, são apresentadas a derivação para o caso geral da família exponencial e outro exemplo concreto. Suponha que os dados venham da família exponencial (consulte Estatística Moderna Aplicada com S , Capítulo ):
f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7
f( yEu; θEu, φ ) = exp[ AEu( yEuθEu- γ( θEu))/φ+τ(yi,φ/Ai)].(1)
onde
são pesos anteriores conhecidos e
φ são parâmetros de dispersão / escala (para muitos casos, como binomial e Poisson, esse parâmetro é conhecido, enquanto para outros casos, como normal e Gamma, esse parâmetro é desconhecido). A probabilidade logarítmica é dada por:
ℓ ( θ , φ ; Y ) = n ∑ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n ∑ i = 1 τAiφ
Como no exemplo de Poisson, os parâmetros do modelo saturado podem ser estimados resolvendo a seguintefunção de
pontuação:
0 = U ( θ i ) = ∂ ℓ ( θ , φ ; Y )ℓ(θ,φ;Y)=∑i=1nAi(yiθi−γ(θi))/φ+∑i=1nτ(yi,φ/Ai).
0=U(θi)=∂ℓ(θ,φ;Y)∂θi=Ai(yi−γ′(θi))φ
θ^i
ℓ(θ^,φ;Y)=∑i=1nAi(yiθ^i−γ(θ^i))/φ+∑i=1nτ(yi,φ/Ai).(∗∗)
( ∗ ∗ )Γ ( α ,β)
f( y; α , β) = βαΓ ( α )e- βyyα - 1,y> 0 , α > 0 , β> 0 ,
f( 1 )φ = 1α,θ = - βα,
ff( y; θ , φ ) = exp[ θ y- ( - log( - θ ) )φ+ τ( y, φ ) ] ,
τ( y, φ ) = - logφφ+ ( 1φ- 1 ) logy- logΓ ( φ- 1) .
θ^Eu= - 1yEu∑i = 1n1φ[ θ^EuyEu- ( - log( - θ^Eu) ) ] = ∑i = 1n1φ[ - 1 - log( yEu) ] ≠ 0 ,
yEu
A resposta de Zhanxiong já é ótima (+1), mas aqui está uma rápida demonstração de que a probabilidade logarítmica do modelo saturado é0 0 para uma regressão logística. Imaginei que iria postar porque não tinha visto o TeX neste site e porque acabei de escrevê-los para uma palestra.
A probabilidade éL ( y ; X , β ) = ∏i = 1nf( yEu; xEu, β ) = ∏i = 1nπyEuEu( 1 - πEu)1 - yEu= ∏i = 1n( πEu1 - πEu)yEu( 1 - πEu)(1)
Onde πEu= invlogit ( x⊺Euβ ) .
A probabilidade de log éregistroL ( y ; X , β )= ∑i = 1nyEuregistro( πEu1 - πEu) +log( 1 - πEu)= ∑i = 1nyEulogit ( πEu) + log( 1 - πEu)= ∑i = 1nyEux⊺Euβ + log( 1 - invlogit ( x⊺Euβ ) )= ∑i = 1nyEux⊺Euβ + log( invlogit ( - x⊺Euβ ) )= ∑i = 1nyEux⊺Euβ - log( 1 + exp[ x⊺Euβ ] ) )
Se você tomar os derivativos em relação a todos os coeficientes que obtém∇ ℓ ( β ) = ∑i = 1nyEuxEu- exp[ x⊺Euβ ]( 1 + exp[ x⊺Euβ ] )xEu.2)
Definir esta expressão igual a0 0 e resolvendo para β lhe dará sua resposta. Geralmente, isso não pode ser feito analiticamente, o que explica a popularidade / necessidade do uso de algoritmos iterativos para ajustar-se a esse modelo, mas no caso de um modelo saturado, isso é possível.
Para encontrar o modelo saturado, damos a cada linha seu próprio coeficiente. entãoβ ∈ Rn e a matriz de projeto vezes o vetor de coeficiente é
X β= ⎡⎣⎢⎢⎢⎢⎢10 0⋮0 00 01⋮0 0⋯⋯⋱⋯0 00 0⋮1⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢β1β2⋮βn⎤⎦⎥⎥⎥⎥.
Observe que, em particular,x⊺Euβ = βEu .
Então, pegando oj a linha da equação (2) nos fornece
∑Eu= 1nyEuxi ,j= ∑i = 1nexp[ x⊺Euβ ]( 1 +exp[ x⊺Euβ ] )xi , j
o que só pode ser verdade se, para cada observaçãoEu :
fonte
glm( cbind(k, n-k) ~ x + ...
), o modelo saturado não tem probabilidade de log zero.@ Alex: sim, está certo. pelo menos para distribuições discretas. para distribuições contínuas, tudo se resumiria a deixar a densidade igual a 1, o que não é necessariamente significativo e, portanto, não é uma coisa sensata a se tentar alcançar. de maneira um pouco mais geral, a probabilidade logarítmica do modelo saturado fornece um limite superior para o desempenho de qualquer modelo que siga sua suposição da família de distribuição subjacente. Em outras palavras, a probabilidade logarítmica de um modelo binomial saturado é "o melhor possível" para o conjunto de dados fornecido (X, Y), assumindo que Y é binomial. Faz sentido comparar seu modelo glm com esse limite superior em oposição a, digamos, 100% (ou similar), já que seu modelo é inerentemente restringido por sua suposição sobre a distribuição de respostas.
fonte