Existe um exemplo em que o MLE produz uma estimativa tendenciosa da média?

17

Você pode fornecer um exemplo de um estimador de MLE da média que é tendenciosa?

Não estou procurando um exemplo que quebre os estimadores de MLE em geral, violando as condições de regularidade.

Todos os exemplos que vejo na internet referem-se à variação e não consigo encontrar nada relacionado à média.

EDITAR

O @MichaelHardy forneceu um exemplo em que obtemos uma estimativa tendenciosa da média da distribuição uniforme usando o MLE sob um determinado modelo proposto.

Contudo

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

sugere que o MLE é um estimador imparcial mínimo uniforme da média, claramente em outro modelo proposto.

Neste ponto, ainda não está muito claro para mim o que se entende por estimativa do MLE, se é um modelo muito dependente de hipóteses, em vez de dizer um estimador médio de amostra que é neutro em relação ao modelo. No final, estou interessado em estimar algo sobre a população e realmente não me importo com a estimativa de um parâmetro de um modelo hipotético.

EDIT 2

Como o @ChristophHanck mostrou o modelo com informações adicionais introduziu o viés, mas não conseguiu reduzir o MSE.

Também temos resultados adicionais:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (slide 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (slide 5)

"Se um estimador imparcial mais eficiente ˆθ de θ existe (ou seja, isθ é imparcial e sua variação é igual ao CRLB), então o método de estimativa de probabilidade máxima o produzirá."

"Além disso, se existe um estimador eficiente, é o estimador de ML".

Como o MLE com parâmetros de modelo livre é imparcial e eficiente, por definição é "o" Estimador de Máxima Verossimilhança?

EDIT 3

O @AlecosPapadopoulos tem um exemplo com distribuição Half Normal no fórum de matemática.

/math/799954/can-the-maximum-likelihood-estimator-be-unbiated-and-fail-to-achieve-cramer-rao

Não está ancorando nenhum de seus parâmetros, como no caso uniforme. Eu diria que isso resolve, embora ele não tenha demonstrado o viés do estimador médio.

Cagdas Ozgenc
fonte
10
A média de um uniforme em zero e teta.
Christoph Hanck
1
Não posso seguir sua distinção entre "estimar algo sobre a população" e "um parâmetro de um modelo hipotético". Em todas as estatísticas paramétricas, parametrizamos uma população por alguns parâmetros. É claro que podemos, assim, encontrar problemas de especificação incorreta, mas isso não parece ser relevante para o problema em questão.
Christoph Hanck
5
Por exemplo, que uma população pode ser caracterizada por seus parâmetros / momentos, como média e variância (o que seria suficiente para uma população normal, por exemplo). E: Eu não acho que as pessoas sejam mais ou menos pedantes com você do que com qualquer outra pessoa neste fórum.
Christoph Hanck
2
Se você está insatisfeito com o aparente truque manual de alternar entre "parâmetro" e "médio", deixe-me definir uma certa distribuição não negativa em termos de sua média , com densidade 1μ em seu suporte a[0,2μ]...12μ[0,2μ]
Silverfish
1
Em relação à sua edição 2, muitos desses resultados são derivados sob condições de regularidade que não são atendidas pelo exemplo uniforme discutido neste encadeamento, para o qual o espaço de amostra depende do parâmetro.
Christoph Hanck

Respostas:

32

Christoph Hanck não publicou os detalhes de seu exemplo proposto. Presumo que ele significa a distribuição uniforme no intervalo base em uma amostra iid X 1 , , X n de tamanho maior que n = 1.[0,θ],X1,,Xnn=1.

A média é .θ/2

O MLE da média é max{X1,,Xn}/2.

Isso é tendencioso, já que então E ( max / 2 ) < θ / 2.Pr(max<θ)=1,E(max/2)<θ/2.

PS: Talvez devêssemos notar que o melhor estimador imparcial da média não é a média da amostra, mas sim n + 1θ/2A média da amostra é um péssimo estimador de θ / 2 porque, para algumas amostras, a média da amostra é menor que 1

n+12nmax{X1,,Xn}.
θ/2 e é claramente impossível para θ / 2 para ser inferior a max / 2. final de PS12max{X1,,Xn},θ/2max/2.

Suspeito que a distribuição de Pareto seja outro caso. Aqui está a medida de probabilidade: O valor esperado éα

α(κx)α dxx for x>κ.
O MLE do valor esperado é nαα1κ. onde min = min
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

Eu não calculei o valor esperado do MLE para a média, então não sei qual é o seu viés.

Michael Hardy
fonte
12
Cagdas, não é legítimo pedir um contra-exemplo e depois negar que você proponha outra coisa! É como pedir um exemplo de uma fruta que não é vermelha, mostrar um mirtilo e dizer que não conta porque você não gosta de mirtilos.
whuber
7
Isso não é relevante para a pergunta que você fez.
whuber
8
@CagdasOzgenc: se o MLE é tendencioso ou não, depende do modelo. Não existe MLE sem modelo. E se você alterar o modelo, você altera o MLE.
Michael Hardy
8
@CagdasOzgenc Aqui está uma pergunta socrática: a média da amostra é um estimador imparcial do quê? Você precisa de um modelo para ter um parâmetro a ser estimado.
Matthew Drury
9
A média de uma amostra iid é um estimador imparcial da média da população, mas não se pode falar de um estimador de probabilidade máxima de qualquer coisa sem mais estrutura do que o necessário para falar de um estimador imparcial de alguma coisa.
Michael Hardy
18

Aqui está um exemplo que eu acho que alguns podem achar surpreendente:

Na regressão logística, para qualquer tamanho finito de amostra com resultados não determinísticos (ou seja, ), qualquer coeficiente de regressão estimado não é apenas tendencioso, a média do coeficiente de regressão é realmente indefinida.0<pi<1

Isso ocorre porque, para qualquer tamanho finito de amostra, existe uma probabilidade positiva (embora muito pequena se o número de amostras for grande comparado ao número de parâmetros de regressão) de obter uma separação perfeita dos resultados. Quando isso acontece, os coeficientes de regressão estimados serão ou . Ter probabilidade positiva de ser ou implica o valor esperado é indefinido.

Para mais informações sobre esse assunto específico, consulte o efeito Hauck-Donner .

Cliff AB
fonte
1
Isto é bastante inteligente. Eu me pergunto se o MLE dos coeficientes de regressão logística é condicional e imparcial à não ocorrência do efeito Hauck-Donner?
gung - Restabelece Monica
3
@gung: Resposta curta: ignorando o efeito Hauck-Donner, ainda existe viés ascendente nos coeficientes de regressão absolutos (ou seja, coeficientes negativos têm viés descendente, positivos têm viés ascendente). Curiosamente, parece haver um viés em direção a 0,5 nas probabilidades estimadas. Comecei a escrever sobre isso neste post , mas ainda não coloquei meus resultados nas tendências das probabilidades estimadas.
Cliff AB
10

Embora @MichaelHardy tenha argumentado isso, aqui está um argumento mais detalhado sobre por que o MLE do máximo (e, portanto, o da média , por invariância) não é imparcial, embora esteja em um modelo diferente (consulte a edição abaixo).θ/2

Estimamos o limite superior da distribuição uniforme . Aqui, y ( n ) é o MLE, para uma amostra aleatória y . Mostramos que y ( n ) não é imparcial. Seu cdf é F y ( n ) ( x )U[0,θ]y(n)yy(n) Assim, sua densidade é fy(n)(x)={n

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
Portanto, E [ Y ( n ) ]
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

EDIT: É realmente o caso em que (veja a discussão nos comentários) o MLE é imparcial quanto à média no caso em que o limite inferior e o limite superior b são desconhecidos. Então, o mínimo Y ( 1 ) é o MLE para a , com (detalhes omitidos) valor esperado E ( Y ( 1 ) ) = n a + babY(1)a enquanto E(Y(n))=nb+a

E(Y(1))=na+bn+1
para que o MLE para(a+b)/2seja Y ( 1 ) +Y ( n )
E(Y(n))=nb+an+1
(a+b)/2 com valor esperado E( Y ( 1 ) + Y ( n )
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

EDIT 2: Para elaborar o ponto de Henry, aqui está uma pequena simulação para o MSE dos estimadores da média, mostrando que enquanto o MLE, se não sabemos o limite inferior é zero, não é imparcial, os MSEs das duas variantes são idênticos. , sugerindo que o estimador que incorpora o conhecimento do limite inferior reduz a variabilidade.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968
Christoph Hanck
fonte
Porque a Wikipedia está propondo um modelo diferente para começar. É aí que está minha confusão.
Cagdas Ozgenc
a=0(max+0)/2
2
Não elaborei os detalhes, mas o MLE nesse modelo pode ser imparcial se o mínimo superestimar o limite inferior pela mesma quantidade que o máximo subestimar o máximo, de modo que o ponto médio seja estimado sem viés.
Christoph Hanck
4
@CagdasOzgenc: imparcialidade não é a única ou até a mais importante medida de melhor . Ao conhecer com precisão uma extremidade do suporte, você pode perder o equilíbrio entre os erros na estimativa da média, mas acaba tendo (por exemplo) uma estimativa melhor do intervalo
Henry
6
Os estimadores de probabilidade máxima nem sempre são "melhores" em todos os critérios para amostras pequenas. E daí? Eles também não fingem ser. Se você deseja usar um estimador diferente para o seu problema que possua melhores propriedades, de acordo com algum critério para tamanhos de amostra próximos do tamanho real da amostra, você pode fazê-lo. Eu faço isso e outras pessoas também. Ninguém está afirmando que o uso do MLE é justificado em todas as situações apenas porque é o MLE.
jbowman
5

Completando aqui a omissão na minha resposta em math.se referenciada pelo OP,

n

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

A probabilidade logarítmica da amostra é

L(vx)=nln2/πn2lnv12vi=1nxi2

v

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ
Alecos Papadopoulos
fonte
4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.

AdamO
fonte
2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB
1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO
3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
Xi'an
fonte