A estimativa de máxima verossimilhança geralmente resulta em estimadores enviesados (por exemplo, sua estimativa para a variação da amostra é enviesada para a distribuição gaussiana).
O que o torna tão popular? Por que exatamente é usado tanto? Além disso, o que em particular o torna melhor do que a abordagem alternativa - método dos momentos?
Além disso, notei que, para o gaussiano, um simples dimensionamento do estimador MLE o torna imparcial. Por que esse dimensionamento não é um procedimento padrão? Quero dizer - Por que, após o cálculo do MLE, não é rotineiro encontrar o dimensionamento necessário para tornar o estimador imparcial? A prática padrão parece ser o cálculo simples das estimativas de MLE, exceto, é claro, o caso gaussiano bem conhecido, onde o fator de escala é bem conhecido.
Respostas:
A imparcialidade não é necessariamente especialmente importante por si só.
Além de um conjunto muito limitado de circunstâncias, os estimadores mais úteis são tendenciosos, mas são obtidos.
Se dois estimadores têm a mesma variação, pode-se montar prontamente um argumento para preferir um imparcial a um tendencioso, mas essa é uma situação incomum (ou seja, você pode razoavelmente preferir imparcialidade, ceteris paribus - mas esses incômodos ceteris) quase nunca são paribus ).
Mais tipicamente, se você deseja imparcialidade, adiciona alguma variação para obtê-la, e a pergunta seria por que você faria isso ?
Viés é até que ponto o valor esperado do meu estimador será muito alto em média (com viés negativo indicando muito baixo).
Quando estou considerando um pequeno estimador de amostra, não me importo com isso. Normalmente, estou mais interessado em quão errado meu estimador estará nesse caso - minha distância típica da direita ... algo como um erro de raiz quadrada média ou um erro médio absoluto faria mais sentido.
Portanto, se você gosta de baixa variância e baixo viés, pedir um estimador de erro quadrado médio mínimo faria sentido; estes raramente são imparciais.
Viés e imparcialidade são uma noção útil, mas não é uma propriedade especialmente útil, a menos que você esteja comparando apenas estimadores com a mesma variação.
Os estimadores de ML tendem a ser de baixa variância; eles geralmente não são MSE mínimos, mas costumam ter MSE mais baixo do que modificá-los para serem imparciais (quando você pode fazer isso).
Como um exemplo, considere estimar a varicia no momento da amostragem de uma distribuição normal σ 2 MMSE = S 2 (de fato, o MMSE para a variação sempre tem um denominador maior quen-1).σ^2MMSE= S2n + 1, σ^2MLE= S2n, σ^2Unb= S2n - 1 n - 1
fonte
O MLE gera o valor mais provável dos parâmetros do modelo, considerando o modelo e os dados disponíveis - o que é um conceito bastante atraente. Por que você escolheria valores de parâmetros que tornam os dados observados menos prováveis quando você pode escolher os valores que tornam os dados observados os mais prováveis em qualquer conjunto de valores? Deseja sacrificar esse recurso por imparcialidade? Não digo que a resposta seja sempre clara, mas a motivação para o MLE é bastante forte e intuitiva.
Além disso, o MLE pode ser mais amplamente aplicável do que o método dos momentos, tanto quanto eu sei. MLE parece mais natural em casos de variáveis latentes; por exemplo, um modelo de média móvel (MA) ou um modelo heterocedasticidade condicional autoregressiva generalizada (GARCH) pode ser estimado diretamente pelo MLE (por diretamente, quero dizer que é suficiente especificar uma função de probabilidade e enviá-la para uma rotina de otimização) - mas não pelo método dos momentos (embora possam existir soluções indiretas utilizando o método dos momentos).
fonte
Na verdade, o dimensionamento das estimativas de máxima verossimilhança para obter estimativas imparciais não é um procedimento padrão em muitos problemas de estimativa. A razão para isso é que o mle é uma função das estatísticas suficientes e, portanto, pelo teorema de Rao-Blackwell, se você pode encontrar um estimador imparcial com base em estatísticas suficientes, então você tem um estimador imparcial de variância mínima.
Sei que sua pergunta é mais geral do que isso, mas o que pretendo enfatizar é que os conceitos-chave estão intimamente relacionados à probabilidade e às estimativas baseadas nela. Essas estimativas podem não ser imparciais em amostras finitas, mas são assintoticamente e, além disso, são assintoticamente eficientes, ou seja, atingem o limite de variação Cramer-Rao para estimadores imparciais, o que nem sempre é o caso para os estimadores do MOM.
fonte
Para responder à sua pergunta de por que o MLE é tão popular, considere que, embora possa ser tendencioso, é consistente sob condições padrão. Além disso, é assintoticamente eficiente; portanto, pelo menos para amostras grandes, é provável que o MLE seja tão bom ou melhor quanto qualquer outro estimador que você possa preparar. Finalmente, o MLE é encontrado por uma receita simples; pegue a função de probabilidade e maximize-a. Em alguns casos, essa receita pode ser difícil de seguir, mas para a maioria dos problemas, não é. Além disso, uma vez que você tenha essa estimativa, podemos derivar os erros padrão assintóticos imediatamente usando as informações de Fisher. Sem usar as informações de Fisher, geralmente é muito difícil derivar os limites de erro.
É por isso que a estimativa do MLE costuma ser o estimador (a menos que você seja bayesiano); é simples de implementar e provavelmente será tão bom se não melhor do que qualquer outra coisa que você precise fazer mais trabalho para preparar.
fonte
Eu acrescentaria que, às vezes (frequentemente), usamos um estimador de MLE porque é isso que conseguimos, mesmo que em um mundo ideal não seja o que queremos. (Costumo pensar em estatística como engenharia, onde usamos o que obtemos, não o que queremos.) Em muitos casos, é fácil definir e resolver o MLE e obter um valor usando uma abordagem iterativa. Considerando que, para um dado parâmetro em uma determinada situação, pode haver um estimador melhor (para algum valor de "melhor"), mas encontrá-lo pode exigir ser muito inteligente; e quando você terminar de ser inteligente, ainda terá o melhor estimador para esse problema em particular.
fonte