Estou confuso sobre o método da máxima verossimilhança em comparação com, por exemplo, calcular a média aritmética.
Quando e por que a probabilidade máxima produz estimativas "melhores" do que, por exemplo, a média aritmética? Como isso é verificável?
maximum-likelihood
mavavilj
fonte
fonte
Respostas:
Embora a média aritmética possa soar como o estimador "natural", pode-se perguntar por que ela deve ser preferida ao MLE! A única propriedade segura associada à média aritmética é que ele é um estimador imparcial de E [ X ] quando essa expectativa é definida. (Pense na distribuição de Cauchy como um contra-exemplo.) A última de fato desfruta de uma ampla gama de propriedades sob condições de regularidade na função de probabilidade. Para pedir emprestado da página da Wikipedia , o MLE éx¯ E[X]
Em comparação com a média aritmética, a maioria dessas propriedades também é satisfeita para distribuições regulares o suficiente. Exceto 4 e 5. No caso de famílias exponenciais, o MLE e a média aritmética são idênticos para estimar o parâmetro na parametrização média (mas não para outras parametrizações). E o MLE existe para uma amostra da distribuição de Cauchy.
No entanto, ao voltar para propriedades de otimização de amostra finita, como minimaxidade ou admissibilidade, pode acontecer que o MLE não seja minimax nem admissível. Por exemplo, o efeito Stein mostra que existem estimadores com um risco quadrático menor para todos os valores do parâmetro, sob algumas restrições na distribuição da amostra e na dimensão do parâmetro. Este é o caso quando e p ≥ 3 .x∼Np(θ,Ip) p≥3
fonte
Vamos interpretar "computando a média aritmética" como estimativa usando o Método dos Momentos (MoM). Acredito que seja fiel à questão original, pois o método substitui as médias amostrais pelas teóricas. Também aborda a preocupação de @ Xi'an sobre um parâmetro arbitrário (de um modelo arbitrário).
Se você ainda está comigo, acho que um ótimo lugar para ir é Exemplos onde o método dos momentos pode superar a máxima probabilidade em pequenas amostras?O texto da pergunta aponta que "os estimadores de máxima verossimilhança (MLE) são assintoticamente eficientes; vemos o resultado prático, pois geralmente eles se saem melhor do que as estimativas do método de momentos (quando diferem)" e procura casos específicos em que os estimadores atingir um erro quadrático médio menor do que o seu homólogo do MLE. Alguns exemplos são fornecidos no contexto de regressão linear, a distribuição Gaussiana Inversa de dois parâmetros e uma distribuição de potência exponencial assimétrica.
Essa idéia de "eficiência assintótica" significa que os estimadores de probabilidade máxima provavelmente estão próximos de usar os dados em todo o seu potencial (para estimar o parâmetro em questão), uma garantia que você não obtém com o método dos momentos em geral. Embora a probabilidade máxima nem sempre seja "melhor" do que trabalhar com médias, essa propriedade de eficiência (mesmo que no limite) o torna um método obrigatório para a maioria dos freqüentadores. Obviamente, o contrarian poderia argumentar que, com o aumento do tamanho dos conjuntos de dados, se você estiver apontando para o alvo certo com uma função de médias, siga em frente.
fonte
Existem vários exemplos famosos em que a máxima verossimilhança (ML) não fornece a melhor solução. Veja o artigo de Lucien Le Cam, de 1990: "Máxima Verossimilhança: uma introdução" [1] , que é de suas palestras convidadas na Univ. de Maryland.
O exemplo que eu mais gosto, porque é tão direto, é o seguinte:
Não vou estragar a diversão dando a resposta, mas (sem surpresa) existem duas maneiras de resolver isso usando o ML e elas oferecem soluções diferentes. Um é a "média aritmética" dos resíduos ao quadrado (como seria de esperar) e o outro é metade da média aritmética. Você pode encontrar a resposta aqui na minha página do Github.
fonte