Por que é tão comum obter estimativas de probabilidade máxima de parâmetros, mas você praticamente nunca ouve falar das estimativas esperadas de parâmetros de probabilidade (ou seja, com base no valor esperado e não no modo de uma função de probabilidade)? Isso ocorre principalmente por razões históricas ou por razões técnicas ou teóricas mais substantivas?
Haveria vantagens e / ou desvantagens significativas no uso de estimativas de probabilidade esperada em vez de estimativas de probabilidade máxima?
Existem algumas áreas nas quais as estimativas de probabilidade esperadas são usadas rotineiramente?
probability
mathematical-statistics
maximum-likelihood
optimization
expected-value
Jake Westfall
fonte
fonte
Respostas:
O método proposto (após normalizar a probabilidade de ser uma densidade) é equivalente a estimar os parâmetros usando um flat anterior para todos os parâmetros no modelo e usando a média da distribuição posterior como seu estimador. Há casos em que o uso de um flat flat anterior pode causar problemas porque você não acaba com uma distribuição posterior adequada, então não sei como você corrigiria essa situação aqui.
Permanecendo em um contexto freqüentista, porém, o método não faz muito sentido, pois a probabilidade não constitui uma densidade de probabilidade na maioria dos contextos e não há mais nada aleatório; portanto, assumir uma expectativa não faz muito sentido. Agora, podemos formalizar isso como uma operação que aplicamos à probabilidade após o fato de obter uma estimativa, mas não tenho certeza de como seriam as propriedades freqüentes desse estimador (nos casos em que a estimativa realmente existe).
Vantagens:
Desvantagens:
fonte
Uma razão é que a estimativa da probabilidade máxima é mais fácil: você define a derivada da probabilidade com os parâmetros como zero e resolve os parâmetros. Tomar uma expectativa significa integrar os tempos de probabilidade de cada parâmetro.
Em alguns casos, o parâmetro de probabilidade máxima é o mesmo que o parâmetro de probabilidade esperado. Por exemplo, a média de probabilidade esperada da distribuição normal acima é igual à probabilidade máxima, porque o anterior na média é normal e o modo e a média de uma distribuição normal coincidem. Claro que isso não será verdadeiro para o outro parâmetro (no entanto, você o parametriza).
Eu acho que a razão mais importante é provavelmente por que você quer uma expectativa dos parâmetros? Normalmente, você está aprendendo um modelo e os valores dos parâmetros são tudo o que deseja. Se você deseja retornar um único valor, a probabilidade máxima não é a melhor que você pode devolver?
fonte
Essa abordagem existe e é chamada Estimador de contraste mínimo. O exemplo de artigo relacionado (e veja outras referências de dentro) https://arxiv.org/abs/0901.0655
fonte