Quando a probabilidade máxima funciona e quando não funciona?

16

Estou confuso sobre o método da máxima verossimilhança em comparação com, por exemplo, calcular a média aritmética.

Quando e por que a probabilidade máxima produz estimativas "melhores" do que, por exemplo, a média aritmética? Como isso é verificável?

mavavilj
fonte
4
+1 Esta é uma boa pergunta para qualquer procedimento estatístico.
whuber
3
Não acho que essa pergunta seja muito clara. Certamente o OP não é claro, mas é por isso que eles estão perguntando. Questões relacionadas à natureza do MLE e meios aritméticos devem ser esclarecidas com uma boa resposta.
gung - Restabelece Monica
3
O que você quer dizer com "melhor"? E por que o meio aritmético seria um bom estimador de um parâmetro arbitrário?
Xian
4
A questão não pode ser respondida sem primeiro definir uma definição de "melhor", isto é, de uma função de perda ou outro critério que permita comparar estimadores. Por exemplo, o MLE é eficiente, o que significa que não há estimador com uma menor variação assintótica (sob algumas condições de regularidade). E, por exemplo, o MLE pode ser inadmissível como demonstrado pelo efeito Stein , o que significa que existem estimadores com um risco quadrático menor para todos os valores do parâmetro, sob algumas restrições na distribuição da amostra e na dimensão do parâmetro.
Xian
2
@ Xi'an Isso soa como a base de uma resposta.
whuber

Respostas:

10

Embora a média aritmética possa soar como o estimador "natural", pode-se perguntar por que ela deve ser preferida ao MLE! A única propriedade segura associada à média aritmética é que ele é um estimador imparcial de E [ X ] quando essa expectativa é definida. (Pense na distribuição de Cauchy como um contra-exemplo.) A última de fato desfruta de uma ampla gama de propriedades sob condições de regularidade na função de probabilidade. Para pedir emprestado da página da Wikipedia , o MLE éx¯E[X]

  1. consistente
  2. assintoticamente normal
  3. eficiente na medida em que atinge a variância assintótica mínima
  4. invariante sob transformações bijetivas
  5. dentro do conjunto de parâmetros, mesmo para conjuntos de parâmetros restritos

Em comparação com a média aritmética, a maioria dessas propriedades também é satisfeita para distribuições regulares o suficiente. Exceto 4 e 5. No caso de famílias exponenciais, o MLE e a média aritmética são idênticos para estimar o parâmetro na parametrização média (mas não para outras parametrizações). E o MLE existe para uma amostra da distribuição de Cauchy.

No entanto, ao voltar para propriedades de otimização de amostra finita, como minimaxidade ou admissibilidade, pode acontecer que o MLE não seja minimax nem admissível. Por exemplo, o efeito Stein mostra que existem estimadores com um risco quadrático menor para todos os valores do parâmetro, sob algumas restrições na distribuição da amostra e na dimensão do parâmetro. Este é o caso quando e p 3 .xNp(θ,Ip)p3

Xi'an
fonte
Apenas para esclarecer sobre a mle - as 5 propriedades listadas estão todas dentro do contexto de um modelo assumido para a população.
probabilityislogic
@CagdasOzgenc: sim o domínio é assintoticamente insignificante, mas vale para todo ..! No entanto a gama da James-Stein minimax estimadores encolhe com n desde a constante de encolhimento situa-se entre 0 e 2 ( p - 2 ) σ 2 / n em que p é a dimensão e σ 2 a variância de um componente de observação. Mas nunca ouvi falar em minimaxidade assintótica. nsn02(p2)σ2/npσ2
Xian
2

Vamos interpretar "computando a média aritmética" como estimativa usando o Método dos Momentos (MoM). Acredito que seja fiel à questão original, pois o método substitui as médias amostrais pelas teóricas. Também aborda a preocupação de @ Xi'an sobre um parâmetro arbitrário (de um modelo arbitrário).

Se você ainda está comigo, acho que um ótimo lugar para ir é Exemplos onde o método dos momentos pode superar a máxima probabilidade em pequenas amostras?O texto da pergunta aponta que "os estimadores de máxima verossimilhança (MLE) são assintoticamente eficientes; vemos o resultado prático, pois geralmente eles se saem melhor do que as estimativas do método de momentos (quando diferem)" e procura casos específicos em que os estimadores atingir um erro quadrático médio menor do que o seu homólogo do MLE. Alguns exemplos são fornecidos no contexto de regressão linear, a distribuição Gaussiana Inversa de dois parâmetros e uma distribuição de potência exponencial assimétrica.

Essa idéia de "eficiência assintótica" significa que os estimadores de probabilidade máxima provavelmente estão próximos de usar os dados em todo o seu potencial (para estimar o parâmetro em questão), uma garantia que você não obtém com o método dos momentos em geral. Embora a probabilidade máxima nem sempre seja "melhor" do que trabalhar com médias, essa propriedade de eficiência (mesmo que no limite) o torna um método obrigatório para a maioria dos freqüentadores. Obviamente, o contrarian poderia argumentar que, com o aumento do tamanho dos conjuntos de dados, se você estiver apontando para o alvo certo com uma função de médias, siga em frente.

Ben Ogorek
fonte
1

Existem vários exemplos famosos em que a máxima verossimilhança (ML) não fornece a melhor solução. Veja o artigo de Lucien Le Cam, de 1990: "Máxima Verossimilhança: uma introdução" [1] , que é de suas palestras convidadas na Univ. de Maryland.

O exemplo que eu mais gosto, porque é tão direto, é o seguinte:

XjYjj=1,...,nXjN(μj,σ2)YjN(μj,σ2)jXjYjjσ2 ?

Não vou estragar a diversão dando a resposta, mas (sem surpresa) existem duas maneiras de resolver isso usando o ML e elas oferecem soluções diferentes. Um é a "média aritmética" dos resíduos ao quadrado (como seria de esperar) e o outro é metade da média aritmética. Você pode encontrar a resposta aqui na minha página do Github.

idnavid
fonte