Ok, essa é uma pergunta bastante básica, mas estou um pouco confusa. Na minha tese, escrevo:
Os erros padrão podem ser encontrados calculando o inverso da raiz quadrada dos elementos diagonais da matriz (observada) de Fisher Information:
-logLI(μ,σ2)=H-1
Como o comando de otimização em R minimiza a matriz Fisher Information (observada) pode ser encontrada calculando o inverso do Hessian:
Minha principal pergunta: está correto o que estou dizendo ?
Estou um pouco confuso, porque nesta fonte da página 7 diz:
a matriz da informação é negativa do valor esperado da matriz hessiana
(Portanto, não o inverso do Hessian.)
Visto que nesta fonte da página 7 (nota 5) diz:
A informação observada de Fisher é igual a .
(Então aqui está o inverso.)
Estou ciente do sinal de menos e quando usá-lo e quando não, mas por que há uma diferença em tomar o inverso ou não?
maximum-likelihood
fisher-information
Jen Bohold
fonte
fonte
Respostas:
Yudi Pawitan escreve em seu livro In All Likelihood que a segunda derivada da probabilidade logarítmica avaliada nas estimativas de máxima verossimilhança (MLE) é a informação observada de Fisher (consulte também este documento , página 2). É exatamente isso que a maioria dos algoritmos de otimização gosta
optim
emR
troca: o Hessian avaliado no MLE. Quando o negativoprobabilidade de log é minimizada, o Hessian negativo é retornado. Como você aponta corretamente, os erros padrão estimados do MLE são as raízes quadradas dos elementos diagonais do inverso da matriz de informações de Fisher observada. Em outras palavras: as raízes quadradas dos elementos diagonais do inverso do hessiano (ou do hessiano negativo) são os erros padrão estimados.Sumário
Formalmente
Seja uma função de probabilidade de log. A matriz de informações de Fisher é uma matriz simétrica contém as entradas: A matriz de informações observada de Fisher é simplesmente , a matriz de informação avaliada com base nas estimativas de máxima verossimilhança (MLE). O Hessiano é definido como:l(θ) I(θ) (p×p)
Além disso, o inverso da matriz de informações de Fisher é um estimador da matriz de covariância assintótica: Os erros padrão são as raízes quadradas dos elementos diagonais da matriz de covariância. Para a distribuição assintótica de uma estimativa de máxima verossimilhança, podemos escrever que indica o valor verdadeiro do parâmetro. Portanto, o erro padrão estimado das estimativas de máxima verossimilhança é dado por: θ M L um ~ N ( θ 0 , [ I ( θ M G ) ] - 1 ) θ 0 S E ( θ M L ) = 1
fonte
A estimativa das funções de probabilidade envolve um processo de duas etapas.
Primeiro, declara-se a função de probabilidade de log. otimiza-se as funções de probabilidade de log. Isso é bom.
Escrevendo as funções de probabilidade de log em R, solicitamos (onde representa a função de probabilidade de log) porque o comando optim em R minimiza uma função por padrão. minimização de -l é o mesmo que maximização de l, que é o que queremos.l−1∗l l
Agora, a matriz de informações de Fisher observada é igual a . a razão pela qual não precisamos multiplicar o hassiano por -1 é que toda a avaliação foi feita em termos de -1 vezes a probabilidade logarítmica. Isso significa que o hessian que é produzido por optim já é multiplicado por -1(−H)−1
fonte