Há algo que está me confundindo sobre estimadores de probabilidade máxima. Suponha que eu tenha alguns dados e a probabilidade sob um parâmetro seja
que é reconhecível como a probabilidade de aumento gaussiano de escala. Agora, meu estimador de probabilidade máxima me dará .
Agora suponha que eu não sabia disso e estava trabalhando com um parâmetro tal que . Suponhamos também que tudo isso fosse numérico e, portanto, eu não veria imediatamente como é parecida a seguinte probabilidade:
Agora eu resolveria a probabilidade máxima e obteria soluções adicionais. Para ajudar a ver isso, eu traço abaixo.
Portanto, desse ponto de vista, a probabilidade máxima parece uma coisa tola de se fazer, pois não é invariante para a parametrização . o que estou perdendo?
Observe que uma análise bayesiana naturalmente cuidaria disso, pois as probabilidades sempre viriam com uma medida
Parte adicionada após respostas e comentários (adicionada em 16/03/2018)
Percebi mais tarde que meu exemplo acima não é bom porque os dois máximos em correspondem a . Então eles estão identificando o mesmo ponto. Eu guardei o exposto acima para que a discussão e as respostas abaixo façam sentido. No entanto, acho que o seguinte é um exemplo melhor do problema que estou tentando descobrir.
Toma
Agora suponha que eu reparameterize , em seguida, fazer um máximo verossimilhança com relação a Recebo
Se eu quiser uma maxima em um local diferente da que eu começar a partir de maximização em relação ao I requerem
e
Assim, posso pegar um exemplo simples
Traço os resultados abaixo. Podemos ver claramente que é o máximo global (e somente um ao maximizar em relação a ), mas também temos outros máximos locais em ao maximizar em relação a .
Observe que o mapa não é bijetivo, mas não vejo por que deve ser. Além disso, pelo menos neste exemplo, o máximo global será sempre o de mas do ponto de vista freqüentista, eu não seria obrigado a tomar algum tipo de média ponderada de 1 / 1,6 de e 0,6 / 1,6 de (que corresponde a ) se eu trabalhasse completamente no espaço ?
fonte
Respostas:
Olhando para o seu gráfico, parece quet^∈ { 0.7753975 , 2.346194 } é um palpite bastante razoável no (s) MLE (s) de t . A execução desses valores por meio dopecado função para voltar a μ resulta em μ^= { 0,7 , 0,7 } ou 0,7 , exatamente como deveria. Portanto, não há discordância entre o MLE deμ e o MLE (s) de t .
O que está acontecendo é que você criou um mapa a partir deμ → t isso não é 1-1. Nesse caso, o verdadeiro valor deμ mapeia para vários valores de t , portanto, não é de surpreender que você tenha vários máximos ao trabalhar com t . Observe, no entanto, que isso seria o mesmo se você estivesse fazendo uma análise bayesiana, a menos que sua restrição préviat para o intervalo [ - π/ 2,π/ 2) ou algo assim. Se você fez isso, para fins de comparabilidade, deve restringir o alcance do MLE det para o mesmo intervalo; nesse caso, você não terá mais múltiplos máximos para a função de probabilidade.
ETA: Em retrospecto, concentrei-me demais na explicação por exemplo e não o suficiente no princípio subjacente. Dificilmente se pode fazer melhor do que o comentário do @ whuber em resposta ao OP a esse respeito.
Em geral, se você tiver um parâmetroθ e um MLE associado θ^ e você constrói uma função θ = f( T ) , você criou efetivamente um parâmetro alternativo t . O MLE det , rotule t^ , serão esses valores de t de tal modo que f( t ) =θ^ , ou seja, f(t^) =θ^ .
fonte
Como minha resposta anterior não estava completamente clara sobre a necessidade de bijetividade ou não (alguém poderia argumentar que minha resposta estava simplesmente errada). Eu fiz algumas pesquisas sobre toda a coisa reparametrizante e aqui está o que eu descobri. Tanto o @whuber quanto o @jbowman abordam algumas das mesmas coisas.
Teoria
Então, em teoria, o estimador de máxima verossimilhançaθ^ da função de probabilidade L ( θ ) , é invariável à re-parametrização. Então, digamos que você tenha alguma função conhecidag , que re-parametriza θ
para dentro λ = g( θ ) (onde as dimensões de θ e λ
não são necessariamente os mesmos). Então dois fatos são verdadeiros:
Dividir a invariância nesses dois sub-casos pode parecer um pouco artificial, mas acho útil, pois eles representam dois casos de uso diferentes de re-parametrização.
Na prática
O primeiro caso de uso é onde você de alguma forma pode identificar o MLE para algum parâmetro, mas na verdade você precisa de uma certa transformação dessa variável. Por exemplo, você tem um estimador,σ^, para o parâmetro σ na distribuição normal, mas você está realmente interessado no MLE para a variação σ2 . Então você pode usar o princípio de invariância e simplesmente ajustarσ -MLE,
σ2^= (σ^)2 .
Um exemplo para o segundo caso de uso é que você possui um algoritmo numérico, como descida de gradiente ou Newton-Raphson, para maximizar a função de probabilidade. Digamos que você queira estimar o parâmetroσ2 de uma distribuição normal. O parâmetro é estritamente positivo por definição, mas o procedimento numérico não permite que você faça restrições. Bem, você pode usar a propriedade invariância para definirσ2= exp( λ )
e deixe o algoritmo variar λ ao invés de σ2 , garantindo assim que σ2 permanece positivo. O exponencial é bijetivo, mas isso não é estritamente necessário. Nós poderíamos ter usadoσ2=λ2
em vez disso, o que não é bijetivo. Mas usar uma bijeção é mais prático, pois podemos ir deσ2 para λ e de volta de uma maneira única.
As formalidades
Para definir o MLE deλ formalmente, precisamos definir o que é chamado de função de probabilidade do perfil como,
Então, para um dadoλ -valorize o valor da probabilidade do perfil, é o supremo em todos θ é que garante que g( θ )
é igual a λ .
Com a probabilidade de perfil definida, podemos definir o MLE paraλ , denotado λ^ , como o valor que maximiza
eu∗( λ ) .
Com essas definições, a invariância da re-parametrização se resume a,
o que pode ser provado por,
onde eu assumi queL ( θ ) tem um máximo.
Se a re-parametrização for uma bijeção, ou seja, é invertível, entãoeu∗( λ ) e simples L ( g( θ ) ) já que cada
θ mapeia exclusivamente para um λ e, portanto, o supremo sobre `` tudo '' θ apenas desmorona para o único L ( θ ) . Então, nós entendemos isso,
Propriedade de invariância do MLE: qual é o MLE deθ2 de normal, X¯2 ?
http://www.stats.ox.ac.uk/~dlunn/b8_02/b8pdf_6.pdf
http://www.stat.unc.edu/faculty/cji/lecture7.pdf
https://en.wikipedia.org/wiki/Maximum_likelihood_estimation#Functional_invariance
fonte