O que significa o erro padrão de uma estimativa de máxima verossimilhança?

21

Eu sou um matemático que estuda estatística e está lutando especialmente com o idioma.

No livro que estou usando, há o seguinte problema:

Uma variável aleatória é fornecida como distribuída com . (Obviamente, você pode fazer qualquer distribuição, dependendo de um parâmetro, para fins desta pergunta.) Em seguida , é fornecida uma amostra de cinco valores , , , , .XPareto(α,60)α>014216322

Primeira parte: "Usando o método da máxima probabilidade, encontre uma estimativa de base em [a amostra]." Isso não foi problema. A resposta é .α^αα^4.6931

Mas então: "Dê uma estimativa para o erro padrão de ."α^

O que se entende por isso? Como é apenas um número real fixo, não vejo de que maneira poderia haver um erro padrão. Devo determinar o desvio padrão de ?α^Pareto(α^,60)

Se você acha que a pergunta não está clara, essa informação também me ajudaria.

Stefan
fonte
O que significa? 60
Alecos Papadopoulos
Você tem uma fórmula para ? Isso o ajudará a estimar seu erro padrão. α^
soakley
1
@Glen_b Mas se fosse o limite inferior, como seria possível que todos os valores da amostra realizada fossem menores?
Alecos Papadopoulos 03/03
1
@Alecos Esse é um ponto excelente. Meu comentário não faz sentido; Eu deletei.
Glen_b -Reinstate Monica
1
@Alecos: é a distribuição com densidade . f ( x ) = α λ αPareto(α,λ)f(x)=αλα(λ+x)α+1
276 Stefan

Respostas:

17

A outra resposta cobriu a derivação do erro padrão, só quero ajudá-lo com a notação:

Sua confusão se deve ao fato de que, no Statistics, usamos exatamente o mesmo símbolo para indicar o Estimador (que é uma função) e uma estimativa específica (que é o valor que o estimador recebe quando recebe como entrada uma amostra realizada específica).

Então e para . Então é uma função de variáveis ​​aleatórias e, portanto, uma variável aleatória em si, que certamente tem uma variação. α (X=x)=4,6931x={14,α^=h(X)α^(X=x)=4,6931α ( X )x={14,21,6,32.,2}α^(X)

Na estimativa de ML, em muitos casos, o que podemos calcular é o erro padrão assintótico , porque a distribuição de amostras finitas do estimador não é conhecida (não pode ser derivada).

A rigor, não possui uma distribuição assintótica, pois converge para um número real (o número verdadeiro em quase todos os casos de estimativa de ML). Mas a quantidade converge para uma variável aleatória normal (pela aplicação do Teorema do Limite Central).α^n(α^-α)

Um segundo ponto de confusão notacional : a maioria, se não todos os textos, escreverá ("Avar" = variação assintótica "), enquanto o que eles significam é , ou seja, referem-se à variação assintótica da quantidade , não de ... No caso de um Pareto básico distribuição que temosavar ( Avar(α^)Avar(n(α^-α)) αn(α^-α)α^

Avar[n(α^-α)]=α2

e

Avar(α^)=α2/n

(mas o que você encontrará escrito é ) Avar(α^)=α2

Agora, em que sentido o Estimator tem uma "variação assintótica", pois, como dito, assintoticamente converge para uma constante? Bem, em um sentido aproximado e para amostras grandes, mas finitas . Ou seja, em algum lugar entre uma amostra "pequena", em que o Estimador é uma variável aleatória com distribuição (geralmente) desconhecida, e uma amostra "infinita", em que o estimador é uma constante, existe esse "território de amostra grande, mas finito", em que o estimador ainda não se tornou uma constante e onde sua distribuição e variação são derivadas de maneira indireta, primeiro usando o Teorema do Limite Central para derivar a distribuição adequadamente assintótica da quantidade Z=α^ α = 1Z=n(α^-α)(o que é normal devido ao CLT) e, em seguida, inverter as coisas e escrever (dando um passo atrás e tratando como finito), que mostra como uma função afim da variável aleatória normal e, portanto, normalmente se distribui (sempre aproximadamente).nαZα^=1nZ+αnα^Z

Alecos Papadopoulos
fonte
+1 para distinguir entre e - certamente a notação pode ser inconsistente. α^n(α^α)
Nate Pope
21

ctα^ - um estimador de probabilidade máxima - é uma função de uma amostra aleatória e também é aleatória (não fixa). Uma estimativa do erro padrão de pode ser obtida nas informações de Fisher,α^

Eu(θ)=-E[2eu(θ|Y=y)θ2|θ]

Onde é um parâmetro e é a função de probabilidade de log de condicional na amostra aleatória . Intuitivamente, as informações de Fisher indicam a inclinação da superfície da probabilidade de log em torno do MLE e, portanto, a quantidade de 'informações' que fornece sobre .L ( θ | Y = y ) θ y y θθeu(θ|Y=y)θyyθ

Para uma distribuição com uma única realização , a probabilidade de log em que é conhecida:Y = y y 0Pumareto(α,y0 0)Y=yy0 0

I(α)=1

eu(α|y,y0 0)=registroα+αregistroy0 0-(α+1)registroyeu(α|y,y0 0)=1α+registroy0 0-registroyeu(α|y,y0 0)=-1α2
Conectando-se à definição de informações de Fisher, Para uma amostra O estimador de probabilidade máxima é assintoticamente distribuído como: Onde é o tamanho da amostra. Como é desconhecido, podemos conectar {Y1,Y2,. . . ,Yn} α α n ~ N (α, 1
Eu(α)=1α2
{y1,y2,...,yn}α^nααSE(α)
α^nN(α,1nEu(α))=N(α,α2n), 
nαα^ para obter uma estimativa do erro padrão:
SE(α^)α^2/n4,69312/52.1
Nate Pope
fonte
1
Na sua penúltima linha, , não parece que a notação está correta. Se , não poderá aparecer no lado direito. Em vez disso, você desejaα^nN(α,1nEu(α))nnα^˙N(α,1nEu(α))
align