Por que probabilidade máxima e probabilidade não esperada?

22

Por que é tão comum obter estimativas de probabilidade máxima de parâmetros, mas você praticamente nunca ouve falar das estimativas esperadas de parâmetros de probabilidade (ou seja, com base no valor esperado e não no modo de uma função de probabilidade)? Isso ocorre principalmente por razões históricas ou por razões técnicas ou teóricas mais substantivas?

Haveria vantagens e / ou desvantagens significativas no uso de estimativas de probabilidade esperada em vez de estimativas de probabilidade máxima?

Existem algumas áreas nas quais as estimativas de probabilidade esperadas são usadas rotineiramente?

Jake Westfall
fonte
9
Valor esperado em relação a qual distribuição de probabilidade? O ML é geralmente aplicado em análises não bayesianas, onde (a) os dados são fornecidos (e fixos) e (b) os parâmetros são tratados como constantes (desconhecidas): não há variáveis ​​aleatórias.
whuber

Respostas:

15

O método proposto (após normalizar a probabilidade de ser uma densidade) é equivalente a estimar os parâmetros usando um flat anterior para todos os parâmetros no modelo e usando a média da distribuição posterior como seu estimador. Há casos em que o uso de um flat flat anterior pode causar problemas porque você não acaba com uma distribuição posterior adequada, então não sei como você corrigiria essa situação aqui.

Permanecendo em um contexto freqüentista, porém, o método não faz muito sentido, pois a probabilidade não constitui uma densidade de probabilidade na maioria dos contextos e não há mais nada aleatório; portanto, assumir uma expectativa não faz muito sentido. Agora, podemos formalizar isso como uma operação que aplicamos à probabilidade após o fato de obter uma estimativa, mas não tenho certeza de como seriam as propriedades freqüentes desse estimador (nos casos em que a estimativa realmente existe).

Vantagens:

  • Isso pode fornecer uma estimativa em alguns casos em que o MLE realmente não existe.
  • Se você não é teimoso, pode levá-lo para um cenário bayesiano (e essa provavelmente seria a maneira natural de fazer inferência com esse tipo de estimativa). Ok, então, dependendo de seus pontos de vista, isso pode não ser uma vantagem - mas é para mim.

Desvantagens:

  • Também não é garantido que isso exista.
  • Se não tivermos um espaço de parâmetro convexo, a estimativa pode não ser um valor válido para o parâmetro.
  • O processo não é invariável à reparameterização. Como o processo é equivalente a colocar um plano antes de seus parâmetros, faz diferença quais são esses parâmetros (estamos falando em usar como parâmetro ou estamos usando σ 2σσ2 )
Dason
fonte
7
+1 Um grande problema ao assumir uma distribuição uniforme dos parâmetros é que os problemas de ML são frequentemente reformulados, explorando a invariância de suas soluções à reparameterização: no entanto, isso alteraria a distribuição anterior dos parâmetros. Assim, assumir uma "expectativa" como se os parâmetros tivessem uma distribuição uniforme é um artefato arbitrário e pode levar a resultados equivocados e sem sentido.
whuber
1
Bom ponto! Eu mencionaria isso também, mas esqueci de mencioná-lo enquanto digitava o resto.
Dason
Para o registro, a probabilidade máxima também não é invariável à reparametrização.
Neil G
1
@NeilG Sim, é? Talvez estejamos nos referindo a idéias diferentes. O que você quer dizer quando diz isso?
Dason
p[0,1]α=β=2o[0,)α=β=2121314
12

Uma razão é que a estimativa da probabilidade máxima é mais fácil: você define a derivada da probabilidade com os parâmetros como zero e resolve os parâmetros. Tomar uma expectativa significa integrar os tempos de probabilidade de cada parâmetro.

{xi}μ=E(x)χ=E(x2) .

Em alguns casos, o parâmetro de probabilidade máxima é o mesmo que o parâmetro de probabilidade esperado. Por exemplo, a média de probabilidade esperada da distribuição normal acima é igual à probabilidade máxima, porque o anterior na média é normal e o modo e a média de uma distribuição normal coincidem. Claro que isso não será verdadeiro para o outro parâmetro (no entanto, você o parametriza).

Eu acho que a razão mais importante é provavelmente por que você quer uma expectativa dos parâmetros? Normalmente, você está aprendendo um modelo e os valores dos parâmetros são tudo o que deseja. Se você deseja retornar um único valor, a probabilidade máxima não é a melhor que você pode devolver?

Neil G
fonte
6
Com relação à sua última linha: Talvez - talvez não. Depende da sua função de perda. Eu apenas brinquei com a idéia de Jake e parece que, no caso de X ~ Unif (0, teta), max (X) * (n-1) / (n-2), que é o que o método de Jake oferece, tem um melhor MSE que max (X), que é o MLE (pelo menos simulações implicam isso quando n> = 5). Obviamente, o exemplo Unif (0, theta) não é típico, mas mostra que existem outros métodos plausíveis para obter estimadores.
Dason
4
@Dason Uma técnica freqüentadora padrão (e poderosa) para encontrar bons estimadores ( isto é , admissíveis) é calcular os estimadores de Bayes para vários antecedentes. (Veja, por exemplo , o livro de Lehmann sobre estimativa de pontos.) Você acabou de redescobrir um desses estimadores.
whuber
Obrigado pela sua resposta Neil! Você diz que a obtenção das estimativas de parâmetros via diferenciação é mais fácil em comparação à integração, e certamente posso ver como isso seria verdade para problemas simples (por exemplo, nível de caneta e papel ou muito além). Mas, para problemas muito mais complicados em que precisamos confiar em métodos numéricos, não seria realmente mais fácil usar a integração? Na prática, encontrar o MLE pode representar um problema de otimização bastante difícil. Não seria possível aproximar numericamente a integral de maneira computacionalmente mais fácil? Ou é improvável que isso seja verdade na maioria dos casos?
Jake Westfall
@JakeWestfall: Como você vai ter uma expectativa sobre o espaço de parâmetros usando métodos numéricos? Em um espaço de modelo complicado, com um enorme espaço de parâmetro, não é possível integrar a avaliação geral da probabilidade de cada modelo (configuração de parâmetro). Você normalmente executará o EM para o qual a estimativa de parâmetro ocorre na etapa M, de modo que cada parâmetro seja um dos "problemas simples", como você diz, e para os quais os parâmetros de máxima probabilidade são expectativas diretas de estatísticas suficientes.
Neil G
@ NeilG Bem, Dason aponta que o método que estou discutindo é (após a normalização) equivalente à estimativa bayesiana com um plano anterior e depois usando a média posterior como estimativa. Então, em resposta a "Como você espera obter uma expectativa sobre o espaço de parâmetros usando métodos numéricos?" Acho que estava pensando que poderíamos usar um desses métodos: bayesian-inference.com/numericalapproximation Alguma opinião sobre isso?
Jake Westfall
2

Essa abordagem existe e é chamada Estimador de contraste mínimo. O exemplo de artigo relacionado (e veja outras referências de dentro) https://arxiv.org/abs/0901.0655

Danila Doroshin
fonte