A probabilidade máxima não é invariante para a parametrização. Então, como alguém pode justificar usá-lo?

7

Há algo que está me confundindo sobre estimadores de probabilidade máxima. Suponha que eu tenha alguns dados e a probabilidade sob um parâmetro sejaμ

L(D|μ)=e(.7μ)2

que é reconhecível como a probabilidade de aumento gaussiano de escala. Agora, meu estimador de probabilidade máxima me dará .μ=.7

Agora suponha que eu não sabia disso e estava trabalhando com um parâmetro tal que . Suponhamos também que tudo isso fosse numérico e, portanto, eu não veria imediatamente como é parecida a seguinte probabilidade:tμ=sin(t)

L(D|t)=e(.7sin(t))2

Agora eu resolveria a probabilidade máxima e obteria soluções adicionais. Para ajudar a ver isso, eu traço abaixo.

insira a descrição da imagem aqui

Portanto, desse ponto de vista, a probabilidade máxima parece uma coisa tola de se fazer, pois não é invariante para a parametrização . o que estou perdendo?

Observe que uma análise bayesiana naturalmente cuidaria disso, pois as probabilidades sempre viriam com uma medida

L(D|μ)P(μ)dμ=L(D|μ(t))P(μ(t))dμdtdt

Parte adicionada após respostas e comentários (adicionada em 16/03/2018)

Percebi mais tarde que meu exemplo acima não é bom porque os dois máximos em correspondem a . Então eles estão identificando o mesmo ponto. Eu guardei o exposto acima para que a discussão e as respostas abaixo façam sentido. No entanto, acho que o seguinte é um exemplo melhor do problema que estou tentando descobrir.t1,t2.7=sin(t1)=sin(t2)

Toma

L(D|μ)=e(aμ)2

Agora suponha que eu reparameterize , em seguida, fazer um máximo verossimilhança com relação a Receboμ=μ(t)t

Lt=Lμμt

Se eu quiser uma maxima em um local diferente da que eu começar a partir de maximização em relação ao I requeremμ

Lμ0

e

μt=0,Lμ2μt2<0

Assim, posso pegar um exemplo simples

μ=b(ab)t2+t3

Traço os resultados abaixo. Podemos ver claramente que é o máximo global (e somente um ao maximizar em relação a ), mas também temos outros máximos locais em ao maximizar em relação a .μ=aμt=0t

insira a descrição da imagem aqui

Observe que o mapa não é bijetivo, mas não vejo por que deve ser. Além disso, pelo menos neste exemplo, o máximo global será sempre o de mas do ponto de vista freqüentista, eu não seria obrigado a tomar algum tipo de média ponderada de 1 / 1,6 de e 0,6 / 1,6 de (que corresponde a ) se eu trabalhasse completamente no espaço ?μ(t)μ=aμ=aμ=bt=0t

Borun Chowdhury
fonte
11
Pelo contrário, a solução é invariável. A formulação correta é que todos os valorest que minimizam L(μ(t)) correspondem aos valores de μ que minimizam L(μ)- o que deveria ser óbvio apenas pela notação. Para que esse resultado seja mantido, não importa seμé invertível, individual, contínuo ou qualquer outra coisa, porque no final estamos discutindo como nomear as distribuições para as quais a probabilidade é maior. "Uma rosa com qualquer outro nome cheira tão doce."
whuber
Eu tive que editar, pois meu exemplo não foi bom. Novo exemplo éL=e(aμ)2 e μ=b(ab)t2+t3. Isso fornece um máximo 'local' adicional emt=0. A probabilidade não é bimodal; portanto, não se deve tomar uma média ponderada? Nesse caso, isso tornaria a solução invariável.
Borun Chowdhury
@whuber Eu concordo que, como a probabilidade é escalar, o máximo global é invariante sob reparameterização, assim como uma rosa com outro nome cheira tão bem. Eu estava falando mais sobre a possibilidade de gerar vários máximos locais e justificar não tomar a média ponderada.
Borun Chowdhury
Nenhuma média faria necessariamente algum sentido, porque no final você está descrevendo distribuições em vez de números. Na sua transformação muitos-para-um, você deveria estar "calculando a média" da mesma distribuição - porque todos os máximos correspondem à mesma distribuição - mas a média dos "nomes" numéricos que você atribuiu a essas distribuições não teria sentido. .
whuber

Respostas:

15

Olhando para o seu gráfico, parece que t^{0.7753975,2.346194} é um palpite bastante razoável no (s) MLE (s) de t. A execução desses valores por meio dosin função para voltar a μ resulta em μ^={0.7,0.7} ou 0.7, exatamente como deveria. Portanto, não há discordância entre o MLE deμ e o MLE (s) de t.

O que está acontecendo é que você criou um mapa a partir de μtisso não é 1-1. Nesse caso, o verdadeiro valor deμ mapeia para vários valores de t, portanto, não é de surpreender que você tenha vários máximos ao trabalhar com t. Observe, no entanto, que isso seria o mesmo se você estivesse fazendo uma análise bayesiana, a menos que sua restrição préviat para o intervalo [π/2,π/2)ou algo assim. Se você fez isso, para fins de comparabilidade, deve restringir o alcance do MLE det para o mesmo intervalo; nesse caso, você não terá mais múltiplos máximos para a função de probabilidade.

ETA: Em retrospecto, concentrei-me demais na explicação por exemplo e não o suficiente no princípio subjacente. Dificilmente se pode fazer melhor do que o comentário do @ whuber em resposta ao OP a esse respeito.

Em geral, se você tiver um parâmetro θ e um MLE associado θ^e você constrói uma função θ=f(t), você criou efetivamente um parâmetro alternativo t. O MLE det, rotule t^, serão esses valores de t de tal modo que f(t)=θ^, ou seja, f(t^)=θ^.

jbowman
fonte
Concordo que meu exemplo não é exatamente o que eu esperava que fosse. Eu percebi isso no caminho de volta para casa. Um exemplo melhor éμ=b-t2+t3. Aqui temos o máximo parat que não mapeiam para μ=.7 (dependendo b) No entanto, também não é bijetivo.
Borun Chowdhury
Não vejo por que a parametrização deve ser bijetiva. De fato, não estou perguntando quais parametrizações podem ser feitas para dar a mesma resposta, estou perguntando por que a probabilidade máxima é usada quando não é invariante para a rein parametrização.
Borun Chowdhury
Alguns dos meus melhores pensamentos são feitos no trânsito da hora do rush ... Você pode criar uma μ, b e t para qual μ=b-t2+t3 resulta em valores diferentes para a função de probabilidade quando você conecta μ no que quando você conecta b-t2+t3 no lugar de μ? Acho que não ... veja o comentário do @ whuber acima.
jbowman
O que quero dizer sobre a natureza não 1-1 da sua função não é que ela não funcione, é o responsável pela multimodalidade da função de probabilidade para t (bem, que e que a função não seja 1-1 em μ, Que é claramente mais restritiva).
jbowman
Editei para incluir o exemplo acima mencionado. eu pegueiμ=b-(uma-b)t2+t3. Então, desde queumab existe um máximo 'local' adicional em t=0 0(μ=b). Embora seja um máximo local, já que sua altura é comparável, a probabilidade máxima deve ser uma média ponderada deμ=uma,b(Suponho que é o que é feito para a máxima probabilidade bimodal).
Borun Chowdhury
1

Como minha resposta anterior não estava completamente clara sobre a necessidade de bijetividade ou não (alguém poderia argumentar que minha resposta estava simplesmente errada). Eu fiz algumas pesquisas sobre toda a coisa reparametrizante e aqui está o que eu descobri. Tanto o @whuber quanto o @jbowman abordam algumas das mesmas coisas.

Teoria

Então, em teoria, o estimador de máxima verossimilhança θ^ da função de probabilidade L(θ), é invariável à re-parametrização. Então, digamos que você tenha alguma função conhecidag, que re-parametriza θ para dentro λ=g(θ) (onde as dimensões de θ e λ não são necessariamente os mesmos). Então dois fatos são verdadeiros:

  • Maximizando eu(θ) wrt. θ, ou seja, encontrar o MLE, θ^e, em seguida, reparametrizando, g(θ^), produz o MLE de λ^. Em resumo,λ^=g(θ^).
  • Além disso, se g tem um inverso, maximizando eu(g-1 1(λ)) wrt. λ, ou seja, encontrar o MLE λ^ produz o mesmo máximo que θ^. Então o MLE deθ é θ^=g-1 1(λ^).

Dividir a invariância nesses dois sub-casos pode parecer um pouco artificial, mas acho útil, pois eles representam dois casos de uso diferentes de re-parametrização.

Na prática

O primeiro caso de uso é onde você de alguma forma pode identificar o MLE para algum parâmetro, mas na verdade você precisa de uma certa transformação dessa variável. Por exemplo, você tem um estimador,σ^, para o parâmetro σ na distribuição normal, mas você está realmente interessado no MLE para a variação σ2. Então você pode usar o princípio de invariância e simplesmente ajustarσ-MLE, σ2^=(σ^)2.

Um exemplo para o segundo caso de uso é que você possui um algoritmo numérico, como descida de gradiente ou Newton-Raphson, para maximizar a função de probabilidade. Digamos que você queira estimar o parâmetroσ2de uma distribuição normal. O parâmetro é estritamente positivo por definição, mas o procedimento numérico não permite que você faça restrições. Bem, você pode usar a propriedade invariância para definirσ2=exp(λ) e deixe o algoritmo variar λ ao invés de σ2, garantindo assim que σ2permanece positivo. O exponencial é bijetivo, mas isso não é estritamente necessário. Nós poderíamos ter usadoσ2=λ2 em vez disso, o que não é bijetivo. Mas usar uma bijeção é mais prático, pois podemos ir deσ2 para λ e de volta de uma maneira única.

As formalidades

Para definir o MLE de λformalmente, precisamos definir o que é chamado de função de probabilidade do perfil como,

eu(λ)=supθ|λ=g(θ)eu(θ).

Então, para um dado λ-valorize o valor da probabilidade do perfil, é o supremo em todos θé que garante que g(θ) é igual a λ.

Com a probabilidade de perfil definida, podemos definir o MLE para λ, denotado λ^, como o valor que maximiza eu(λ).

Com essas definições, a invariância da re-parametrização se resume a,

eu(λ^)=eu(θ^)

o que pode ser provado por,

eu(λ^)=maxλeu(λ)=maxλsupθ|λ=g(θ)eu(θ)=supθeu(θ)=maxθeu(θ)

onde eu assumi que eu(θ) tem um máximo.

Se a re-parametrização for uma bijeção, ou seja, é invertível, então eu(λ) e simples eu(g(θ)) já que cada θ mapeia exclusivamente para um λe, portanto, o supremo sobre `` tudo '' θapenas desmorona para o único eu(θ). Então, nós entendemos isso,

eu(λ)=eu(g(θ))eu(g-1 1(λ))=eu(θ)
e, portanto,

θ^=g-1 1(λ^).
Referências:

Propriedade de invariância do MLE: qual é o MLE de θ2 de normal, X¯2?

http://www.stats.ox.ac.uk/~dlunn/b8_02/b8pdf_6.pdf

http://www.stat.unc.edu/faculty/cji/lecture7.pdf

https://en.wikipedia.org/wiki/Maximum_likelihood_estimation#Functional_invariance

Duffau
fonte