Estimadores de máxima verossimilhança (MLE) são assintoticamente eficientes; vemos o resultado prático, na medida em que eles geralmente se saem melhor do que as estimativas do método dos momentos (MoM) (quando diferem), mesmo em amostras pequenas
Aqui "melhor que" significa no sentido de tipicamente ter menor variação quando ambos são imparciais, e tipicamente menor erro quadrado médio (MSE) em geral.
A questão ocorre, no entanto:
Existem casos em que o MoM pode vencer o MLE - no MSE , digamos - em pequenas amostras?
(onde esta não é uma situação estranha / degenerada - ou seja, considerando que as condições para a existência de ML / são assintoticamente eficientes)
Uma pergunta de acompanhamento seria então 'quão grande pode ser o tamanho pequeno?' - isto é, se houver exemplos, existem alguns que ainda se mantêm em tamanhos de amostra relativamente grandes, talvez até em todos os tamanhos de amostra finitos?
[Posso encontrar um exemplo de um estimador tendencioso que pode superar o ML em amostras finitas, mas não é o MoM.]
Nota adicionada retrospectivamente: meu foco aqui é principalmente no caso univariado (que é de fato a origem da minha curiosidade subjacente). Não quero descartar casos multivariados, mas também não quero entrar em discussões prolongadas sobre a estimativa de James-Stein.
Respostas:
Isso pode ser considerado ... trapaça, mas o estimador OLS é um estimador MoM. Considere uma especificação de regressão linear padrão (com regressores estocásticos, para que as magnitudes sejam condicionadas à matriz do regressor) e uma amostra do tamanho . Denota o estimador OLS da variância do termo de erro. É imparcial, entãon s 2 σ 2K n s2 σ2
Considere agora o MLE de . Isto éσ2
⇒HSE( σ 2 H L )=2(n-K)+K2
Queremos as condições (se existirem) sob as quais
Dado isso, as raízes do quadrático sãoK
No geral: para tamanho de amostra e número de regressores tal que temos Para Por exemplo, se , verifica-se que o número de regressores deve ser para que a desigualdade seja mantida. É interessante que, para pequenos números de regressores, o MLE seja melhor no sentido MSE.n>12 K ⌈K1⌉<K<⌊K2⌋
ADENDOK
A equação para as raízes do quadrante pode ser escrita
fonte
"Neste artigo, consideramos uma nova parametrização da distribuição Gaussiana Inversa de dois parâmetros. Encontramos os estimadores para parâmetros da distribuição Gaussiana Inversa pelo método dos momentos e pelo método da máxima verossimilhança. Em seguida, comparamos a eficiência da estimadores para os dois métodos com base em seu viés e erro quadrático médio (MSE). Para isso, fixamos valores de parâmetros, executamos simulações e relatamos MSE e viés para estimativas obtidas pelos dois métodos. A conclusão é que, quando o tamanho da amostra é 10, o método dos momentos tende a ser mais eficiente que o método da máxima verossimilhança para estimativas de ambos os parâmetros (lambda e teta) .... " leia mais
Atualmente, não se pode (ou não deve) confiar em tudo que foi publicado, mas a última página do artigo parece promissora. Espero que isso endereça sua nota adicionada retrospectivamente.
fonte
De acordo com simulações realizadas por Hosking e Wallis (1987) em "Estimativa de parâmetros e quantis para a distribuição de Pareto generalizada", os parâmetros da distribuição de Pareto generalizada de dois parâmetros fornecidos pelo cdf
ou a densidade
são mais confiáveis se forem estimadas por meio do MOM em oposição ao ML. Isso vale para amostras de tamanho 500. As estimativas do MOM são fornecidas por
e
com
O artigo contém alguns erros de digitação (pelo menos minha versão). Os resultados para os estimadores do MOM dados acima foram gentilmente fornecidos por "heropup" neste tópico .
fonte
Eu encontrei um:
Para a distribuição de potência exponencial assimétrica
os resultados da simulação de Delicado e Goria (2008) sugerem que, para alguns dos parâmetros em amostras menores, o método dos momentos pode superar o MLE; por exemplo, no caso conhecido no tamanho da amostra 10, ao estimar , o MSE do MoM é menor que o do ML.θ σ
Delicado e Goria (2008),
Uma pequena amostra de comparação dos métodos de máxima verossimilhança, momentos e momentos L para a distribuição de potência exponencial assimétrica,
Journal Computational Statistics & Data Analysis
Volume 52 Edição 3, Janeiro, pp 1661-1673
(veja também http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf )
fonte
O método dos momentos (MM) pode superar a abordagem de máxima verossimilhança (ML) quando é possível especificar apenas alguns momentos da população. Se a distribuição estiver mal definida, os estimadores de ML não serão consistentes.
Assumindo momentos finitos e observações de iid, o MM pode fornecer bons estimadores com boas propriedades assintóticas.
Exemplo: Seja uma amostra iid de , em que é uma função de densidade de probabilidade desconhecida. Defina o ésimo momento e considere que o interesse é estimar o quarto momento .X1,…,Xn X∼f f:R→R+ νk=∫Rxkf(x)dx k ν4
Vamos , assumindo que , o teorema do limite central garante que que " " significa "converge na distribuição para" . Além disso, pelo teorema de Slutsky,Xk¯=1n∑ni=1Xki ν8<∞
Ou seja, podemos extrair inferências (aproximadas) para usando a abordagem de momento (para amostras grandes), apenas temos que fazer algumas suposições sobre os momentos de interesse da população. Aqui, os estimadores de probabilidade máxima não podem ser definidos sem conhecer a forma de . fν4 f
Um estudo de simulação:
Patriota et al. (2009) realizaram alguns estudos de simulação para verificar as taxas de rejeição de testes de hipóteses em um modelo de erros em variáveis. Os resultados sugerem que a abordagem MM produz taxas de erro sob a hipótese nula mais próxima do nível nominal do que a ML para amostras pequenas.
Nota histórica:
O método dos momentos foi proposto por K. Pearson em 1894 "Contribuições para a teoria matemática da evolução". O método de máxima verossimilhança foi proposto por RA Fisher em 1922 "Sobre os fundamentos matemáticos da estatística teórica". Ambos os artigos foram publicados nas Transações Filosóficas da Sociedade Real de Londres, Série A.
Referência:
Fisher, RA (1922). Sobre os fundamentos matemáticos da estatística teórica, transações filosóficas da Royal Society de Londres, série A, 222, 309-368.
Patriota, AG, Bolfarine, H. de Castro, M (2009). Um modelo heterocedástico de erros estruturais em variáveis com erro de equação, Statistical Methodology 6 (4), 408-423 ( pdf )
Pearson, K (1894). Contribuições para a Teoria Matemática da Evolução, Transações Filosóficas da Sociedade Real de Londres, Série A, 185, 71-110.
fonte
Fontes adicionais a favor do MOM:
Hong, HP e W. Ye. 2014. Análise de cargas extremas de neve no solo no Canadá usando registros de profundidade da neve . Natural Hazards 73 (2): 355-371.
Martins, ES e JR Stedinger. 2000. Estimadores de quantis generalizados de valor extremo generalizado com probabilidade máxima para dados hidrológicos . Pesquisa de Recursos Hídricos 36 (3): 737-744.
Abstrato:
Nas seções Introdução e Revisão de Literatura, eles citam artigos adicionais que concluíram que o MOM em alguns casos supera o MLE (novamente modelagem de valores extremos), por exemplo
K (kappa) é o parâmetro de forma do GEV.
papéis que aparecem nas citações:
Hosking J, Wallis J, Wood E (1985) Estimativa da distribuição generalizada de valores extremos pelo método dos momentos ponderados por probabilidade . Technometrics 27: 251–261.
Madsen, H., PF Rasmussen e D. Rosbjerg (1997) Comparação de métodos anuais de séries máximas e séries de duração parcial para modelar eventos hidrológicos extremos , 1, Modelagem no local, Water Resour. Res. 33 (4), 747-758.
Hosking, JRM, momentos L: análise e estimativa de distribuições usando combinações lineares de estatísticas de pedidos , JR Stat. Soc. Ser. B, 52, 105-124, 1990.
Além disso, tenho a mesma experiência concluída nos artigos acima, no caso de modelar eventos extremos com tamanho de amostra pequeno e moderado (<50-100, o que é típico), o MLE pode fornecer resultados irreais, a simulação mostra que o MOM é mais robusto e tem RMSE menor.
fonte
No processo de responder a isso: Estimando parâmetros para um binômio , deparei-me com este artigo:
Ingram Olkin, A John Petkau, James V Zidek: Uma comparação dos estimadores de N para a Distribuição Binomial. Jasa 1981.
que dá um exemplo em que o método dos momentos, pelo menos em alguns casos, supera a probabilidade máxima. O problema é a estimativa de na distribuição binomial onde ambos os parâmetros são desconhecidos. Aparece, por exemplo, ao tentar estimar a abundância de animais quando você não pode ver todos os animais, e a probabilidade de avistar também é desconhecida.Bin ( N , p ) pN Bin(N,p) p
fonte