Considere uma variável aleatória Bernoulli com o parâmetro (probabilidade de sucesso). A função de probabilidade e as informações de Fisher (uma matriz ) são:
Agora considere uma versão "com excesso de parâmetros" com dois parâmetros: a probabilidade de sucesso e a probabilidade de falha . (Observe que , e essa restrição implica que um dos parâmetros é redundante.) Nesse caso, a função de verossimilhança e a matriz de informações de Fisher (FIM) são:
Observe que os determinantes desses dois FIMs são idênticos. Além disso, essa propriedade se estende ao caso mais geral de modelos categóricos (ou seja, mais de dois estados). Também parece se estender aos modelos log-lineares com vários subconjuntos de parâmetros restritos a zero; nesse caso, o parâmetro "redundante" extra corresponde à função de partição de log, e a equivalência dos dois determinantes da MIF pode ser mostrada com base no complemento Schur da MIF maior. (Na verdade, para modelos log-lineares, o FIM menor é apenas o complemento de Schur do FIM maior.)
Alguém pode explicar se essa propriedade se estende a um conjunto maior de modelos paramétricos (por exemplo, a todas as famílias exponenciais), permitindo a opção de derivar os determinantes da MIF com base em um conjunto de parâmetros "estendido"? Ou seja, assuma qualquer modelo estatístico com parâmetros, que se encontram em uma variedade dimensional incorporada em um espaço -dimensional. Agora, se estendermos o conjunto de parâmetros para incluir mais uma dimensão (que é totalmente restrita com base nas outras) e computarmos o FIM com base nesses parâmetros , sempre obteremos o mesmo determinante que o baseado no original parâmetros (independentes)? Além disso, como esses dois FIMs estão relacionados?( n + 1 ) n
A razão pela qual faço essa pergunta é que o FIM com o parâmetro extra geralmente parece mais simples. Meu primeiro pensamento é que isso não deve funcionar em geral. O FIM envolve o cálculo de derivadas parciais da probabilidade do log em cada parâmetro. Essas derivadas parciais assumem que, enquanto o parâmetro em questão é alterado, todos os outros parâmetros permanecem constantes, o que não é verdade quando envolvemos o parâmetro extra (restrito). Nesse caso, parece-me que as derivadas parciais não são mais válidas porque não podemos assumir que os outros parâmetros sejam constantes; no entanto, ainda tenho que encontrar evidências de que isso é realmente um problema. (Se derivadas parciais são problemáticas em casos com parâmetros dependentes, são derivadas totaisnecessário? Ainda não vi um exemplo de cálculo do FIM com derivadas totais, mas talvez essa seja a solução ...)
O único exemplo que eu pude encontrar on-line que calcula o FIM com base em um conjunto "estendido" de parâmetros é o seguinte: estas notas contêm um exemplo para a distribuição categórica, calculando as derivadas parciais necessárias como de costume (ou seja, como se cada parâmetro fosse independente , mesmo que uma restrição esteja presente entre os parâmetros).
fonte
Respostas:
Para normal , a matriz de informações é Para curvado normalPortanto, sua observação de que os determinantes são iguais não é universal, mas essa não é a história toda.I 1 = ( 1X∼N(μ,σ2) X∼N(μ,μ2)I2=3
Geralmente, se é a matriz de informações sob a reparametrização então não é difícil ver que a matriz de informação para os parâmetros originais é que é o jacobiano da transformação .Ig
Por exemplo Bernoulli e . Portanto, o jacobiano é e, portanto,(θ0,θ1)=(p,1−p) g(p)=(p,1−p) (1,−1)′
Para exemplo normal curvo,
Eu acho que agora você pode facilmente relacionar os determinantes.
Acompanhamento após o comentário
Se eu entendi corretamente, o FIM é válido desde que você estenda os parâmetros de maneira significativa: a probabilidade de uma nova parametrização deve ser uma densidade válida. Por isso, chamei o exemplo de Bernoulli de infeliz.
Eu acho que o link que você forneceu tem uma falha séria na derivação do FIM para variáveis categóricas, pois temos e . A expectativa do Hessiano negativo fornece , mas não para a covariância dos vetores de pontuação. Se você negligenciar as restrições, a igualdade da matriz de informações não se mantém.E(x2i)=θi(1−θi)≠θi E(xixj)=θiθj≠0 diag{1/θi}
fonte
Parece que o resultado vale para um tipo específico de relação entre os parâmetros.
Sem reivindicar generalidade total para os resultados abaixo, eu me apego ao caso "um a dois parâmetros". Denote a equação implícita que expressa o relacionamento que deve ser mantido entre os dois parâmetros. Em seguida, a probabilidade de log "correto estendido", "dois parâmetros" (não o que o OP calcula - chegaremos lá)g(θ0,θ1)=0
Usando subscritos para denotar derivadas com relação aos parâmetros (uma primeira derivada de subscrito, dois derivativos de segunda derivada), o determinante do Hessian da probabilidade estendida correta de log será
O que o OP está fazendo?
Ele considera a probabilidade incorreta "ignorando" a relação entre os dois parâmetros e sem levar em conta a restrição . Ele então procede à diferenciação e obtémL∗(θ0,θ1) g(θ0,θ1)
É evidente que geralmente não é igual a .(2) (1)
Mas se , entãog00=g11=g00=0
Portanto, se a relação entre o parâmetro real e o parâmetro redundante é tal que as segundas derivadas parciais da função implícita que os vincula são zero , a abordagem fundamentalmente errada acaba "correta".
Para o caso Bernoulli, de fato temos
ADENDOn
para responder à pergunta @Khashaa e mostrar a mecânica aqui, consideramos a probabilidade especificada com um parâmetro redundante, mas também sob uma restrição de que as ligações do parâmetro redundante com a verdadeira. O que fazemos com as probabilidades de log é maximizá-las - então aqui temos um caso de maximização restrita. Suponha uma amostra do tamanho :
Esse problema tem um Langrangeano (o que informalmente chamei de "probabilidade estendida correta" acima),
As condições de primeira ordem para um máximo são
para o qual obtemos a relação
usando a restrição sob a qual os acima são válidos, obtemosθ1=1−θ0
como deveríamos.
Além disso, como a restrição é linear em todos os parâmetros, suas segundas derivadas serão zero. Isso se reflete no fato de que, nas primeiras derivadas do lagrangeano, o multiplicador "fica sozinho" e será eliminado quando tomarmos as segundas derivadas do lagrangeano. O que por sua vez nos levará a um Hessiano cujo determinante será igual à segunda derivada (unidimensional) da probabilidade logarítmica original de um parâmetro, depois de impor também a restrição (que é o que o OP faz). Tomar o negativo do valor esperado em ambos os casos não altera essa equivalência matemática e chegamos à relação "Informações unidimensionais de Fisher = determinante das informações bidimensionais de Fisher". Agoraλ dado que a restrição é linear em todos os parâmetros, o OP obtém o mesmo resultado (no nível da segunda derivada) sem introduzir a restrição com um multiplicador na função a ser maximizada, porque no segundo nível da derivada, a presença / efeito do parâmetro a restrição desaparece nesse caso.
Tudo isso tem a ver com cálculo, não com conceitos estatísticos.
fonte