Como a estimativa de probabilidade máxima tem uma distribuição normal aproximada?

9

Eu tenho lido sobre o MLE como um método de gerar uma distribuição ajustada.

Me deparei com uma declaração dizendo que as estimativas de probabilidade máxima "têm distribuições normais aproximadas".

Isso significa que, se eu aplicar o MLE várias vezes sobre meus dados e a família de distribuições em que estou tentando ajustar, os modelos que eu receber serão normalmente distribuídos? Como exatamente uma sequência de distribuições tem uma distribuição?

Matt O'Brien
fonte
3
Quando você aplica o MLE repetidamente aos seus dados, exceto os erros computacionais, você obtém exatamente os mesmos resultados a cada vez. A maneira de pensar sobre isso é contemplar as maneiras pelas quais seus dados poderiam ter sido diferentes. Quando os dados variam, o mesmo ocorre com as estimativas de ML baseadas neles e é essa variação resultante nas estimativas que é de grande interesse.
whuber
ahh sim ... eu não estava considerando o tamanho da amostra ...
Matt O'Brien
Dê uma olhada na discussão aqui: andrewgelman.com/2012/07/05/…
kjetil b halvorsen

Respostas:

17

Os estimadores são estatísticas e as estatísticas têm distribuições de amostragem (ou seja, estamos falando sobre a situação em que você continua desenhando amostras do mesmo tamanho e olhando para a distribuição das estimativas obtidas, uma para cada amostra).

A citação refere-se à distribuição de MLEs à medida que os tamanhos das amostras se aproximam do infinito.

Então, vamos considerar um exemplo explícito, o parâmetro de uma distribuição exponencial (usando a parametrização de escala, não a parametrização de taxa).

f(x;μ)=1 1μe-xμ;x>0 0,μ>0 0

Nesse caso, . O teorema nos mostra que, à medida que o tamanho da amostra aumenta, a distribuição de (uma padronizada adequadamente) (em dados exponenciais) se torna mais normal.μ^=x¯nX¯

insira a descrição da imagem aqui

Se coletarmos amostras repetidas, cada uma do tamanho 1, a densidade resultante da média da amostra é dada no gráfico superior esquerdo. Se coletarmos amostras repetidas, cada uma do tamanho 2, a densidade resultante da amostra é dada no gráfico superior direito; quando n = 25, no canto inferior direito, a distribuição das médias da amostra já começou a parecer muito mais normal.

(Nesse caso, já poderíamos antecipar que é o caso por causa do CLT. Mas a distribuição de também deve se aproximar da normalidade porque é ML para o parâmetro de taxa ... e você não pode obter isso do CLT - pelo menos não diretamente * -, já que não estamos mais falando de meios padronizados, e é disso que se trata o CLT)1 1/X¯λ=1 1/μ

Agora considere o parâmetro de forma de uma distribuição gama com média de escala conhecida (aqui, usando uma parametrização de média e forma em vez de escala e forma).

O estimador não está fechado neste caso, e o CLT não se aplica a ele (novamente, pelo menos não diretamente *), mas, no entanto, o argmax da função de verossimilhança é MLE. À medida que você coleta amostras cada vez maiores, a distribuição amostral da estimativa do parâmetro de forma se tornará mais normal.

insira a descrição da imagem aqui

Essas são estimativas de densidade do kernel de 10000 conjuntos de estimativas ML do parâmetro de forma de uma gama (2,2), para os tamanhos de amostra indicados (os dois primeiros conjuntos de resultados foram extremamente pesados; foram truncados de alguma forma pode ver a forma perto do modo). Nesse caso, a forma próxima ao modo está mudando lentamente até o momento - mas a cauda extrema diminuiu drasticamente. Pode demorar um de várias centenas de começar a olhar normal.n

-

* Como mencionado, o CLT não se aplica diretamente (claramente, já que não estamos lidando em geral com meios). Você pode, no entanto, criar um argumento assintótico onde expande algo em em uma série, criar um argumento adequado relacionado a termos de ordem superior e chamar uma forma de CLT para obter uma versão padronizada de aproxima da normalidade (sob condições adequadas ...).θ^θ^

Observe também que o efeito que observamos quando analisamos amostras pequenas (pelo menos pequenas comparadas ao infinito) - essa progressão regular em direção à normalidade em várias situações, como vemos motivadas pelas plotagens acima - sugeriria que, se Como consideramos o cdf de uma estatística padronizada, pode haver uma versão de algo como uma desigualdade de Berry Esseen com base em uma abordagem semelhante à maneira de usar um argumento CLT com MLEs que forneceria limites sobre a velocidade com que a distribuição da amostra pode se aproximar da normalidade. Eu não vi algo assim, mas não me surpreenderia descobrir que tinha sido feito.

Glen_b -Reinstate Monica
fonte