Estimativa de máxima verossimilhança - por que é usada, apesar de ser tendenciosa em muitos casos

25

A estimativa de máxima verossimilhança geralmente resulta em estimadores enviesados ​​(por exemplo, sua estimativa para a variação da amostra é enviesada para a distribuição gaussiana).

O que o torna tão popular? Por que exatamente é usado tanto? Além disso, o que em particular o torna melhor do que a abordagem alternativa - método dos momentos?

Além disso, notei que, para o gaussiano, um simples dimensionamento do estimador MLE o torna imparcial. Por que esse dimensionamento não é um procedimento padrão? Quero dizer - Por que, após o cálculo do MLE, não é rotineiro encontrar o dimensionamento necessário para tornar o estimador imparcial? A prática padrão parece ser o cálculo simples das estimativas de MLE, exceto, é claro, o caso gaussiano bem conhecido, onde o fator de escala é bem conhecido.

Minaj
fonte
11
Existem muitas, muitas alternativas ao ML, não apenas o método dos momentos - que também tendem a produzir estimadores tendenciosos. O que você pode querer perguntar é "por que alguém iria querer usar um estimador imparcial?" Uma boa maneira de começar a pesquisar esse problema é uma pesquisa sobre compensação de desvio e desvio .
whuber
7
Como whuber apontou, não há superioridade intrínseca em ser imparcial.
Xi'an
4
Eu acho que @whuber significa "por que alguém iria querer usar um estimador tendencioso ?" Não é preciso muito trabalho para convencer alguém de que um estimador imparcial pode ser razoável.
Cliff AB
5
Veja en.wikipedia.org/wiki/… para um exemplo em que o único estimador imparcial certamente não é aquele que você deseja usar.
Scortchi - Restabelece Monica
4
O @Cliff pretendia fazer a pergunta em sua forma mais provocativa e potencialmente mais misteriosa. Espreitando por trás disso, está a idéia de que existem muitas maneiras de avaliar a qualidade de um estimador e muitas delas não têm nada a ver com o viés. Desse ponto de vista, é mais natural perguntar por que alguém proporia um estimador imparcial . Veja a resposta de glen_b para obter mais informações deste ponto de vista.
whuber

Respostas:

18

A imparcialidade não é necessariamente especialmente importante por si só.

Além de um conjunto muito limitado de circunstâncias, os estimadores mais úteis são tendenciosos, mas são obtidos.

Se dois estimadores têm a mesma variação, pode-se montar prontamente um argumento para preferir um imparcial a um tendencioso, mas essa é uma situação incomum (ou seja, você pode razoavelmente preferir imparcialidade, ceteris paribus - mas esses incômodos ceteris) quase nunca são paribus ).

Mais tipicamente, se você deseja imparcialidade, adiciona alguma variação para obtê-la, e a pergunta seria por que você faria isso ?

Viés é até que ponto o valor esperado do meu estimador será muito alto em média (com viés negativo indicando muito baixo).

Quando estou considerando um pequeno estimador de amostra, não me importo com isso. Normalmente, estou mais interessado em quão errado meu estimador estará nesse caso - minha distância típica da direita ... algo como um erro de raiz quadrada média ou um erro médio absoluto faria mais sentido.

Portanto, se você gosta de baixa variância e baixo viés, pedir um estimador de erro quadrado médio mínimo faria sentido; estes raramente são imparciais.

Viés e imparcialidade são uma noção útil, mas não é uma propriedade especialmente útil, a menos que você esteja comparando apenas estimadores com a mesma variação.

Os estimadores de ML tendem a ser de baixa variância; eles geralmente não são MSE mínimos, mas costumam ter MSE mais baixo do que modificá-los para serem imparciais (quando você pode fazer isso).

Como um exemplo, considere estimar a varicia no momento da amostragem de uma distribuição normal σ 2 MMSE = S 2 (de fato, o MMSE para a variação sempre tem um denominador maior quen-1).σ^MMSE2=S2n+1 1,σ^MLE2=S2n,σ^Unb2=S2n-1 1n-1 1

Glen_b -Reinstate Monica
fonte
11
+1. Existe alguma intuição para (ou talvez alguma teoria por trás) do seu segundo parágrafo antes do último? Por que os estimadores de ML tendem a ter baixa variação? Por que eles costumam ter MSE mais baixo que o estimador imparcial? Além disso, estou surpreso ao ver a expressão estimador de variância do MEEM; de alguma forma, nunca o encontrei antes. Por que é tão raramente usado? E isso tem algo a ver com o encolhimento? Parece que "encolheu" de imparcial para zero, mas estou confuso com isso, pois estou acostumado a pensar em encolhimento apenas no contexto multivariado (na linha de James-Stein).
Ameba diz Reinstate Monica
11
Os MLEs @amoeba geralmente são funções de estatísticas suficientes e, pelo menos, uma variação mínima assintoticamente mínima, portanto, você espera que eles sejam de baixa variação em amostras grandes, geralmente atingindo o CRLB no limite; isso geralmente é refletido em amostras menores.Os estimadores de MMSE geralmente são reduzidos a zero porque isso reduz a variação (e, portanto, uma pequena quantidade de viés em direção a 0 introduzida por um pequeno retração reduz tipicamente o MSE).
Glen_b -Reinstate Monica
σ^MMSE2=S2n+1 1
Além disso, isso implica que o estimador de variância ML não é um estimador de variância mínima? Caso contrário, o estimador mínimo de MSE seria uma média ponderada (com pesos positivos) do MLE e do estimador imparcial, mas agora está fora desse intervalo. Eu poderia fazer isso como uma pergunta separada, se você acha que faz sentido.
Richard Hardy
11
Encontrei toda uma derivação em um artigo da Wikipedia sobre MSE , acho que explica tudo.
9268 Richard Hardy #
16

O MLE gera o valor mais provável dos parâmetros do modelo, considerando o modelo e os dados disponíveis - o que é um conceito bastante atraente. Por que você escolheria valores de parâmetros que tornam os dados observados menos prováveis quando você pode escolher os valores que tornam os dados observados os mais prováveis em qualquer conjunto de valores? Deseja sacrificar esse recurso por imparcialidade? Não digo que a resposta seja sempre clara, mas a motivação para o MLE é bastante forte e intuitiva.

Além disso, o MLE pode ser mais amplamente aplicável do que o método dos momentos, tanto quanto eu sei. MLE parece mais natural em casos de variáveis ​​latentes; por exemplo, um modelo de média móvel (MA) ou um modelo heterocedasticidade condicional autoregressiva generalizada (GARCH) pode ser estimado diretamente pelo MLE (por diretamente, quero dizer que é suficiente especificar uma função de probabilidade e enviá-la para uma rotina de otimização) - mas não pelo método dos momentos (embora possam existir soluções indiretas utilizando o método dos momentos).

Richard Hardy
fonte
4
+1. Obviamente, há muitos casos em que você não deseja a estimativa mais provável, como os Modelos de Mistura Gaussiana (ou seja, probabilidade ilimitada). Em geral, uma ótima resposta para ajudar na intuição de MLE.
Cliff AB
3
(+1) Mas acho que você precisa adicionar uma definição do valor do parâmetro "mais provável" como aquele dado que é mais provável que os dados sejam claros. Outras propriedades intuitivamente desejáveis ​​de um estimador não relacionadas ao seu comportamento de longo prazo sob amostragem repetida podem incluir não depender de como você parametriza um modelo e não produzir estimativas impossíveis do verdadeiro valor do parâmetro.
Scortchi - Reinstate Monica
6
Pense que ainda existe o risco de o "mais provável" ser lido como "o mais provável".
Scortchi - Restabelece Monica
2
@RichardHardy: Eles não são nada parecidos. Muito provavelmente, o sol se pôs. Muito provavelmente, não tem.
User2357112 suporta Monica
2
@dsaxton: Os estatísticos diferenciam a probabilidade de um valor de parâmetro dado os dados da probabilidade de os dados receberem um valor de parâmetro por quase um século - ver Fisher (1921) "Sobre o 'provável erro de uma correlação", Metron , 1 , pp 3-32 e Pawitan (2013), Em toda a probabilidade: modelagem estatística e inferência usando a probabilidade - portanto, mesmo que os termos sejam sinônimos no uso comum, parece um pouco tarde agora para objetar.
Scortchi - Reinstate Monica
12

Na verdade, o dimensionamento das estimativas de máxima verossimilhança para obter estimativas imparciais não é um procedimento padrão em muitos problemas de estimativa. A razão para isso é que o mle é uma função das estatísticas suficientes e, portanto, pelo teorema de Rao-Blackwell, se você pode encontrar um estimador imparcial com base em estatísticas suficientes, então você tem um estimador imparcial de variância mínima.

Sei que sua pergunta é mais geral do que isso, mas o que pretendo enfatizar é que os conceitos-chave estão intimamente relacionados à probabilidade e às estimativas baseadas nela. Essas estimativas podem não ser imparciais em amostras finitas, mas são assintoticamente e, além disso, são assintoticamente eficientes, ou seja, atingem o limite de variação Cramer-Rao para estimadores imparciais, o que nem sempre é o caso para os estimadores do MOM.

JohnK
fonte
11

Para responder à sua pergunta de por que o MLE é tão popular, considere que, embora possa ser tendencioso, é consistente sob condições padrão. Além disso, é assintoticamente eficiente; portanto, pelo menos para amostras grandes, é provável que o MLE seja tão bom ou melhor quanto qualquer outro estimador que você possa preparar. Finalmente, o MLE é encontrado por uma receita simples; pegue a função de probabilidade e maximize-a. Em alguns casos, essa receita pode ser difícil de seguir, mas para a maioria dos problemas, não é. Além disso, uma vez que você tenha essa estimativa, podemos derivar os erros padrão assintóticos imediatamente usando as informações de Fisher. Sem usar as informações de Fisher, geralmente é muito difícil derivar os limites de erro.

É por isso que a estimativa do MLE costuma ser o estimador (a menos que você seja bayesiano); é simples de implementar e provavelmente será tão bom se não melhor do que qualquer outra coisa que você precise fazer mais trabalho para preparar.

Cliff AB
fonte
11
Você pode, por favor, explicar como ele se compara ao método dos momentos, pois isso parece ser uma parte importante do OP?
Antoni Parellada
11
como apontado pelo whuber, os estimadores do MOM também são tendenciosos, portanto não há uma vantagem de "imparcialidade" para os estimadores do MOM. Além disso, quando os estimadores do MOM e do MLE discordam, o MLE tende a ter menor MSE. Mas essa resposta é realmente sobre por que os MLE tendem a ser o padrão, em vez de uma comparação direta com outros métodos.
Cliff AB
2
@AntoniParellada Não é uma discussão interessante na comparação entre MLE e MoM, stats.stackexchange.com/q/80380/28746
Alecos Papadopoulos
3

Eu acrescentaria que, às vezes (frequentemente), usamos um estimador de MLE porque é isso que conseguimos, mesmo que em um mundo ideal não seja o que queremos. (Costumo pensar em estatística como engenharia, onde usamos o que obtemos, não o que queremos.) Em muitos casos, é fácil definir e resolver o MLE e obter um valor usando uma abordagem iterativa. Considerando que, para um dado parâmetro em uma determinada situação, pode haver um estimador melhor (para algum valor de "melhor"), mas encontrá-lo pode exigir ser muito inteligente; e quando você terminar de ser inteligente, ainda terá o melhor estimador para esse problema em particular.

eac2222
fonte
11
Por curiosidade, o que é um exemplo do que (no mundo ideal) você gostaria?
Glen_b -Reinstala Monica
2
@Glen_b: Não sei. Variação imparcial e mais baixa, fácil de calcular em forma fechada? Quando você aprende os estimadores pela regressão dos mínimos quadrados, a vida parece mais simples do que parece ser.
eac2222