Suponha que tenhamos uma variável aleatória . Se fosse o parâmetro true, a função de verossimilhança deveria ser maximizada e a derivada igual a zero. Esse é o princípio básico por trás do estimador de probabilidade máxima.
Pelo que entendi, as informações de Fisher são definidas como
Portanto, se é o parâmetro true, . Mas se não for o parâmetro true, teremos uma quantidade maior de informações de Fisher.
minhas perguntas
- As informações de Fisher medem o "erro" de um determinado MLE? Em outras palavras, a existência de informações positivas de Fisher não implica que meu MLE não possa ser ideal?
- Como essa definição de "informação" difere da usada por Shannon? Por que chamamos isso de informação?
bayesian
maximum-likelihood
likelihood
intuition
fisher-information
Stan Shunpike
fonte
fonte
Respostas:
Tentando complementar as outras respostas ... Que tipo de informação é Fisher? Comece com a função de probabilidade de log como uma função de para , o espaço do parâmetro. Assumindo algumas condições de regularidade que não discutimos aqui, temos (escreveremos derivadas com relação ao parâmetro como pontos aqui). A variação é a informação de Fisher θ θ ∈ Θ E ∂
Como podemos interpretar isso? é a informação de probabilidade sobre o parâmetro da amostra. Isso realmente só pode ser interpretado em um sentido relativo, como quando o usamos para comparar as plausibilidades de dois valores possíveis de parâmetros distintos através do teste de razão de verossimilhança . A taxa de alteração da probabilidade de log é a função de pontuação nos diz com que rapidez a probabilidade muda e sua variação quanto isso varia de amostra para amostra, em um determinado parâmetro valor, digamos . A equação (que é realmente surpreendente!) θ ℓ ( θ 0 ) - ℓ ( θ 1 ) ˙ ℓ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ℓ ( θ ) θ 0 ˙ ℓ ( θ ) | θ = θ 0 θ θ 0ℓ ( θ ) θ ℓ ( θ0 0) - ℓ ( θ1) ℓ˙( θ ) Eu( θ ) θ0 0
Então, qual é a função de probabilidade? Geralmente pensamos no modelo estatístico como uma família de distribuições de probabilidade para os dados , indexadas pelo parâmetro algum elemento no espaço de parâmetros . Pensamos nesse modelo como verdadeiro se existir algum valor tal forma que os dados realmente tenham a distribuição de probabilidade . Portanto, obtemos um modelo estatístico incorporando a verdadeira distribuição de probabilidade de geração de dadosx θ q θ 0 ∈ q x f ( x ; θ 0 ) f ( x ; θ 0 ){ f( x ; θ ) , θ ∈ Θ } x θ Θ θ0 0∈ Θ x f( x ; θ0 0) f( x ; θ0 0) em uma família de distribuições de probabilidade. Mas, é claro que essa incorporação pode ser feita de muitas maneiras diferentes, e cada uma dessas incorporação será um modelo "verdadeiro" e fornecerão funções de probabilidade diferentes. E, sem essa incorporação, não há função de probabilidade. Parece que realmente precisamos de ajuda, alguns princípios sobre como escolher sabiamente uma incorporação!
Então o que isso quer dizer? Isso significa que a escolha da função de probabilidade nos diz como esperaríamos que os dados mudassem, se a verdade mudasse um pouco. Mas, isso realmente não pode ser verificado pelos dados, pois eles fornecem apenas informações sobre a verdadeira função do modelo que realmente gerou os dados, e não nada sobre todos os outros elementos no modelo escolhido. Dessa forma, vemos que a escolha da função de verossimilhança é semelhante à escolha de um anterior na análise bayesiana, injeta informações não relacionadas aos dados na análise. Vejamos isso em um exemplo simples (um tanto artificial) e vejamos o efeito de incorporar em um modelo de maneiras diferentes.f ( x ; θ 0 )f( x ; θ0 0) f( x ; θ0 0)
Suponhamos que sejam iid como . Portanto, essa é a verdadeira distribuição geradora de dados. Agora, vamos incorporar isso em um modelo de duas maneiras diferentes, modelo A e modelo B. você pode verificar se isso coincide com . N ( μ = 10 , σ 2 = 1 ) A : X 1 , ... , X n iid N ( μ , σ 2 = 1 ) , μ ∈ RX1, … , Xn N( μ = 10 , σ2= 1 ) μ = 10
As funções de probabilidade de log se tornam
A pontuação funciona: (derivadas de probabilidade de log): e as curvaturas assim, as informações de Fisher realmente dependem da incorporação. Agora, calculamos as informações de Fisher no valor verdadeiro , portanto, as informações de Fisher sobre o parâmetro são um pouco maiores no modelo B.
Isso ilustra que, em certo sentido, as informações de Fisher nos dizem com que rapidez as informações dos dados sobre o parâmetro seriam alteradas se o parâmetro governante fosse alterado da maneira postulada pela incorporação em uma família de modelos . A explicação de informações mais altas no modelo B é que nossa família de modelos B postula que, se a expectativa aumentasse, a variação também aumentaria . Para que, no modelo B, a variação da amostra também leve informações sobre , o que não será feito no modelo A.μ
Além disso, este exemplo ilustra que realmente precisamos de alguma teoria para nos ajudar a construir famílias de modelos.
fonte
Vamos pensar em termos da função de probabilidade de log negativa . A pontuação negativa é seu gradiente em relação ao valor do parâmetro. No parâmetro true, a pontuação é zero. Caso contrário, ele indica a direção do mínimo (ou, no caso de não convexo , um ponto de sela ou mínimo ou máximo local).ℓ ℓ ℓ
As informações de Fisher medem a curvatura de torno de se os dados seguirem . Em outras palavras, ele indica quanto movimento do parâmetro afetaria sua probabilidade de log.ℓ θθ θ
Considere que você tinha um grande modelo com milhões de parâmetros. E você tinha um pequeno pen drive para armazenar seu modelo. Como você deve priorizar quantos bits de cada parâmetro armazenar? A resposta certa é alocar bits de acordo com as informações de Fisher (Rissanen escreveu sobre isso). Se as informações de Fisher de um parâmetro forem zero, esse parâmetro não importa.
Chamamos isso de "informação" porque as informações de Fisher medem o quanto esse parâmetro nos diz sobre os dados.
Uma maneira coloquial de pensar sobre isso é: suponha que os parâmetros estejam dirigindo um carro e os dados estejam no banco traseiro, corrigindo o motorista. O aborrecimento dos dados é a informação de Fisher. Se os dados deixarem o motorista dirigir, as informações de Fisher serão zero; se os dados estão constantemente fazendo correções, são grandes. Nesse sentido, a informação de Fisher é a quantidade de informação que vai dos dados aos parâmetros.
Considere o que acontece se você tornar o volante mais sensível. Isso é equivalente a uma reparametrização. Nesse caso, os dados não querem ser tão altos por medo do excesso de direção do carro. Esse tipo de reparametrização diminui as informações de Fisher.
fonte
Complementar à boa resposta da @ NeilG (+1) e para responder às suas perguntas específicas:
Lembre-se de que o Hessian da probabilidade logarítmica avaliada nas estimativas de ML é a informação de Fisher observada. Os erros padrão estimados são as raízes quadradas dos elementos diagonais do inverso da matriz de informações de Fisher observada. A partir disso, as informações de Fisher são o traço da matriz de informações de Fisher. Dado que a matriz de informações de Fisher é uma matriz de matriz semidefinida positiva hermitiana, as entradas diagonais são reais e não negativas; como conseqüência direta, o traço deve ser positivo. Isso significa que você pode ter apenas estimadores "não ideais" de acordo com sua afirmação. Portanto, não, uma informação positiva de Fisher não está relacionada ao quão ideal é o seu MLE.I Ij,j tr(I)
O inverso da informação de Fisher é a variação mínima de um estimador imparcial ( ligado a Cramér – Rao ). Nesse sentido, a matriz de informações indica quanta informação sobre os coeficientes estimados está contida nos dados. Pelo contrário, a entropia de Shannon foi extraída da termodinâmica. Relaciona o conteúdo de informações de um valor específico de uma variável como que é a probabilidade de a variável assumir o valor. Ambas são medidas de quão "informativa" é uma variável. No primeiro caso, embora você julgue essas informações em termos de precisão, enquanto no segundo caso em termos de desordem; lados diferentes, mesma moeda! : Dp–p⋅log2(p) p
Para recapitular: O inverso da matriz de informações de Fisher avaliada nos valores do estimador de ML é a matriz de covariância assintótica ou aproximada. Como os valores deste estimador de ML são encontrados graficamente em um mínimo local graficamente, as informações de Fisher mostram quão profundo é esse mínimo e quanto espaço de manobra você tem em torno dele. Encontrei este artigo de Lutwak et al. sobre Extensões de informações de Fisher e desigualdade de Stam, uma leitura informativa sobre esse assunto. Os artigos da Wikipedia sobre a Fisher Information Metric e a divergência de Jensen-Shannon também são bons para você começar.I
fonte