Você tem quatro quantias aqui: o parâmetro verdadeiro , uma estimativa consistente , a informação esperada em e as informações observadas em . Essas quantidades são equivalentes apenas assintoticamente, mas geralmente é assim que são usadas.θ I ( θ ) θ J ( θ ) θθ0θ^I(θ)θJ(θ)θ
A informação observada
converge em probabilidade para a informação esperada
quando é uma amostra iid de . Aqui indica a expectativa w / r / t da distribuição indexada por : . Essa convergência se aplica por causa da lei dos grandes números; portanto, a suposição de que é crucial aqui.I(θ0)=Eθ
J(θ0)=1N∑i=1N∂2∂θ20lnf(yi|θ0)
Yf(θ0)Eθ0(x)θ0∫xf(x|θ0)dxY~fI(θ0)=Eθ0[∂2∂θ20lnf(y|θ0)]
Yf(θ0)Eθ0(x)θ0∫xf(x|θ0)dxY∼f(θ0)
Quando você tem uma estimativa que converge em probabilidade para o parâmetro verdadeiro (ou seja, é consistente), pode substituí-lo por qualquer lugar que veja a acima, essencialmente devido ao teorema do mapeamento contínuo , e todas as convergências continuam sendo mantidas. θ0θ0θ^θ0θ0∗
∗ Na verdade, parece um pouco sutil .
Observação
Como você supôs, as informações observadas são geralmente mais fáceis de trabalhar, porque a diferenciação é mais fácil do que a integração e você já pode tê-las avaliado no decorrer de alguma otimização numérica. Em algumas circunstâncias (a distribuição Normal), eles serão os mesmos.
O artigo "Avaliando a precisão do estimador de máxima verossimilhança: informações observadas versus informações esperadas de Fisher", de Efron e Hinkley (1978), argumenta a favor das informações observadas para amostras finitas.