Por que exatamente as informações observadas de Fisher são usadas?

17

Na configuração padrão de máxima verossimilhança (amostra iid Y1,,Yn de alguma distribuição com densidade fy(y|θ0 )) e no caso de um modelo especificado corretamente, as informações de Fisher são fornecidas por

I(θ)=Eθ0[2θ2lnfy(θ)]

onde a expectativa é tomada em relação à densidade real que gerou os dados. Eu li que as informações de Fisher observadas

J^(θ)=2θ2lnfy(θ)

é usado primário porque a integral envolvida no cálculo das Informações Fisher (esperadas) pode não ser viável em alguns casos. O que me confunde é que, mesmo que a integral seja factível, a expectativa deve ser tomada em relação ao modelo verdadeiro, que envolve o valor desconhecido do parâmetro . Se for esse o caso, parece que sem saber é impossível calcular . Isso é verdade? θ 0 Iθ0θ0I

user2249626
fonte

Respostas:

13

Você tem quatro quantias aqui: o parâmetro verdadeiro , uma estimativa consistente , a informação esperada em e as informações observadas em . Essas quantidades são equivalentes apenas assintoticamente, mas geralmente é assim que são usadas.θ I ( θ ) θ J ( θ ) θθ0θ^I(θ)θJ(θ)θ

  1. A informação observada converge em probabilidade para a informação esperada quando é uma amostra iid de . Aqui indica a expectativa w / r / t da distribuição indexada por : . Essa convergência se aplica por causa da lei dos grandes números; portanto, a suposição de que é crucial aqui.I(θ0)=Eθ

    J(θ0)=1Ni=1N2θ02lnf(yi|θ0)
    Yf(θ0)Eθ0(x)θ0xf(x|θ0)dxY~f
    I(θ0)=Eθ0[2θ02lnf(y|θ0)]
    Yf(θ0)Eθ0(x)θ0xf(x|θ0)dxYf(θ0)
  2. Quando você tem uma estimativa que converge em probabilidade para o parâmetro verdadeiro (ou seja, é consistente), pode substituí-lo por qualquer lugar que veja a acima, essencialmente devido ao teorema do mapeamento contínuo , e todas as convergências continuam sendo mantidas. θ0θ0θ^θ0θ0

Na verdade, parece um pouco sutil .

Observação

Como você supôs, as informações observadas são geralmente mais fáceis de trabalhar, porque a diferenciação é mais fácil do que a integração e você já pode tê-las avaliado no decorrer de alguma otimização numérica. Em algumas circunstâncias (a distribuição Normal), eles serão os mesmos.

O artigo "Avaliando a precisão do estimador de máxima verossimilhança: informações observadas versus informações esperadas de Fisher", de Efron e Hinkley (1978), argumenta a favor das informações observadas para amostras finitas.

Andrew M
fonte
4

Houve alguns estudos de simulação que parecem apoiar as observações teóricas de Efron & Hinkley (que são mencionadas na resposta de Andrew), eis uma que conheço de antemão: Maldonado, G. e Greenland, S. (1994). Uma comparação do desempenho de intervalos de confiança baseados em modelo quando o formato correto do modelo é desconhecido. Epidemiology, 5, 171-182. Eu não vi nenhum estudo que conflite. É interessante, então, que os pacotes GLM padrão que conheço usem as informações esperadas para calcular os intervalos de Wald. Obviamente, isso não é um problema quando (como nos GLMs lineares no parâmetro natural) as matrizes de informações observadas e esperadas são iguais.

Sander Greenland
fonte