Determinante da matriz de informações de Fisher para um modelo superparameterizado

10

Considere uma variável aleatória Bernoulli com o parâmetro (probabilidade de sucesso). A função de probabilidade e as informações de Fisher (uma matriz ) são:X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

Agora considere uma versão "com excesso de parâmetros" com dois parâmetros: a probabilidade de sucesso θ1 e a probabilidade de falha θ0 . (Observe que θ1+θ0=1 , e essa restrição implica que um dos parâmetros é redundante.) Nesse caso, a função de verossimilhança e a matriz de informações de Fisher (FIM) são:

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

Observe que os determinantes desses dois FIMs são idênticos. Além disso, essa propriedade se estende ao caso mais geral de modelos categóricos (ou seja, mais de dois estados). Também parece se estender aos modelos log-lineares com vários subconjuntos de parâmetros restritos a zero; nesse caso, o parâmetro "redundante" extra corresponde à função de partição de log, e a equivalência dos dois determinantes da MIF pode ser mostrada com base no complemento Schur da MIF maior. (Na verdade, para modelos log-lineares, o FIM menor é apenas o complemento de Schur do FIM maior.)

Alguém pode explicar se essa propriedade se estende a um conjunto maior de modelos paramétricos (por exemplo, a todas as famílias exponenciais), permitindo a opção de derivar os determinantes da MIF com base em um conjunto de parâmetros "estendido"? Ou seja, assuma qualquer modelo estatístico com parâmetros, que se encontram em uma variedade dimensional incorporada em um espaço -dimensional. Agora, se estendermos o conjunto de parâmetros para incluir mais uma dimensão (que é totalmente restrita com base nas outras) e computarmos o FIM com base nesses parâmetros , sempre obteremos o mesmo determinante que o baseado no original parâmetros (independentes)? Além disso, como esses dois FIMs estão relacionados?nn( n + 1 ) n(n+1)(n+1)n

A razão pela qual faço essa pergunta é que o FIM com o parâmetro extra geralmente parece mais simples. Meu primeiro pensamento é que isso não deve funcionar em geral. O FIM envolve o cálculo de derivadas parciais da probabilidade do log em cada parâmetro. Essas derivadas parciais assumem que, enquanto o parâmetro em questão é alterado, todos os outros parâmetros permanecem constantes, o que não é verdade quando envolvemos o parâmetro extra (restrito). Nesse caso, parece-me que as derivadas parciais não são mais válidas porque não podemos assumir que os outros parâmetros sejam constantes; no entanto, ainda tenho que encontrar evidências de que isso é realmente um problema. (Se derivadas parciais são problemáticas em casos com parâmetros dependentes, são derivadas totais(n+1)×(n+1)necessário? Ainda não vi um exemplo de cálculo do FIM com derivadas totais, mas talvez essa seja a solução ...)

O único exemplo que eu pude encontrar on-line que calcula o FIM com base em um conjunto "estendido" de parâmetros é o seguinte: estas notas contêm um exemplo para a distribuição categórica, calculando as derivadas parciais necessárias como de costume (ou seja, como se cada parâmetro fosse independente , mesmo que uma restrição esteja presente entre os parâmetros).

Tyler Streeter
fonte
11
Boa pergunta! Eu acho que a especificação de dois parâmetros da variável aleatória Bernoulli é um exemplo bastante infeliz, porque sem a restrição, não é mais obrigado a ser densidade. Você pode reproduzir sua observação para uma família exponencial curvada, por exemplo? p(X|θ1,θ0)=θ1Xθ01X
Khashaa
@Khashaa Estou assumindo que a restrição se aplica no caso de dois parâmetros (o que você mencionou), portanto a função de probabilidade ainda será uma densidade válida. Além disso, sim, eu posso reproduzir esta observação, por exemplo, para modelos log-lineares com vários subconjuntos de parâmetros restritos a zero; nesse caso, o parâmetro "redundante" corresponde à função de partição de log. θ1+θ2=1
Tyler Streeter
11
Que tal ? N(μ,μ2)
Khashaa

Respostas:

4

Para normal , a matriz de informações é Para curvado normalPortanto, sua observação de que os determinantes são iguais não é universal, mas essa não é a história toda.I 1 = ( 1XN(μ,σ2)XN(μ,μ2)I2=3

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

Geralmente, se é a matriz de informações sob a reparametrização então não é difícil ver que a matriz de informação para os parâmetros originais é que é o jacobiano da transformação .Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

Por exemplo Bernoulli e . Portanto, o jacobiano é e, portanto, (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

Para exemplo normal curvo,

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

Eu acho que agora você pode facilmente relacionar os determinantes.

Acompanhamento após o comentário

Se eu entendi corretamente, o FIM é válido desde que você estenda os parâmetros de maneira significativa: a probabilidade de uma nova parametrização deve ser uma densidade válida. Por isso, chamei o exemplo de Bernoulli de infeliz.

Eu acho que o link que você forneceu tem uma falha séria na derivação do FIM para variáveis ​​categóricas, pois temos e . A expectativa do Hessiano negativo fornece , mas não para a covariância dos vetores de pontuação. Se você negligenciar as restrições, a igualdade da matriz de informações não se mantém. E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}

Khashaa
fonte
Obrigado por mencionar a abordagem da transformação jacobiana e pelos exemplos simples e claros. Você pode (ou qualquer outra pessoa) comentar sobre o seguinte problema que ainda me preocupa: ao estender o conjunto de parâmetros por uma dimensão, como estamos fazendo aqui, introduzimos uma restrição entre os parâmetros, para que quaisquer derivadas parciais (conforme exigido por o FIM) deve ser inválido porque agora, quando variamos um parâmetro, os outros não são mais constantes. Então, o FIM é válido mesmo para o conjunto estendido de parâmetros, dado que as derivadas parciais são inválidas devido à restrição extra?
Tyler Streeter
@TylerStreeter Atualizei minha resposta para solucionar seu problema.
Khashaa
3

Parece que o resultado vale para um tipo específico de relação entre os parâmetros.

Sem reivindicar generalidade total para os resultados abaixo, eu me apego ao caso "um a dois parâmetros". Denote a equação implícita que expressa o relacionamento que deve ser mantido entre os dois parâmetros. Em seguida, a probabilidade de log "correto estendido", "dois parâmetros" (não o que o OP calcula - chegaremos lá)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
é equivalente à probabilidade verdadeira , já que , ( é um multiplicador) e podemos tratar os dois parâmetros como independentes, enquanto nos diferenciamos.Lg(θ0,θ1)=0λ

Usando subscritos para denotar derivadas com relação aos parâmetros (uma primeira derivada de subscrito, dois derivativos de segunda derivada), o determinante do Hessian da probabilidade estendida correta de log será

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

O que o OP está fazendo?

Ele considera a probabilidade incorreta "ignorando" a relação entre os dois parâmetros e sem levar em conta a restrição . Ele então procede à diferenciação e obtémL(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

É evidente que geralmente não é igual a .(2)(1)

Mas se , entãog00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

Portanto, se a relação entre o parâmetro real e o parâmetro redundante é tal que as segundas derivadas parciais da função implícita que os vincula são zero , a abordagem fundamentalmente errada acaba "correta".

Para o caso Bernoulli, de fato temos

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

ADENDO
para responder à pergunta @Khashaa e mostrar a mecânica aqui, consideramos a probabilidade especificada com um parâmetro redundante, mas também sob uma restrição de que as ligações do parâmetro redundante com a verdadeira. O que fazemos com as probabilidades de log é maximizá-las - então aqui temos um caso de maximização restrita. Suponha uma amostra do tamanho :n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

Esse problema tem um Langrangeano (o que informalmente chamei de "probabilidade estendida correta" acima),

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

As condições de primeira ordem para um máximo são

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

para o qual obtemos a relação

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

usando a restrição sob a qual os acima são válidos, obtemosθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

como deveríamos.

Além disso, como a restrição é linear em todos os parâmetros, suas segundas derivadas serão zero. Isso se reflete no fato de que, nas primeiras derivadas do lagrangeano, o multiplicador "fica sozinho" e será eliminado quando tomarmos as segundas derivadas do lagrangeano. O que por sua vez nos levará a um Hessiano cujo determinante será igual à segunda derivada (unidimensional) da probabilidade logarítmica original de um parâmetro, depois de impor também a restrição (que é o que o OP faz). Tomar o negativo do valor esperado em ambos os casos não altera essa equivalência matemática e chegamos à relação "Informações unidimensionais de Fisher = determinante das informações bidimensionais de Fisher". Agoraλdado que a restrição é linear em todos os parâmetros, o OP obtém o mesmo resultado (no nível da segunda derivada) sem introduzir a restrição com um multiplicador na função a ser maximizada, porque no segundo nível da derivada, a presença / efeito do parâmetro a restrição desaparece nesse caso.

Tudo isso tem a ver com cálculo, não com conceitos estatísticos.

Alecos Papadopoulos
fonte
Parece que não consigo seguir sua lógica. Você poderia explicar por que tipo lagrangeano é considerado como "probabilidade estendida correta", "dois parâmetros" de probabilidade de log? Além disso, o hessiano é completamente misterioso para mim. Você está calculando a matriz de informações observadas? Le
Khashaa
@Khashaa É terminológica estabelecida que o "Hessian" é a matriz de segundas derivadas de uma função multivariada.
Alecos Papadopoulos
Seria útil se os votantes negativos aqui postassem uma resposta - porque o exemplo específico do OP existe - e exige uma explicação.
Alecos Papadopoulos 01/01
Desculpe, se minha pergunta não foi esclarecida. Minha pergunta era sobre como você vinculou o Hessian à matriz de informações, já que eu não via nenhuma expectativa operando nele e o resultado parecia uma matriz de informações observada. Além disso, você pode explicar por que é a probabilidade de log correta? Acho que você está usando algum método baseado em princípios para avaliar a probabilidade restrita, mas não entendo como isso funciona. Le
Khashaa
@Khashaa Adicionei uma exposição usando o exemplo do OP.
Alecos Papadopoulos