Por que o MLE faz sentido, dada a probabilidade de uma amostra individual ser 0?

13

Esse é um pensamento estranho que eu tive ao revisar algumas estatísticas antigas e, por algum motivo, não consigo pensar na resposta.

Um PDF contínuo nos diz a densidade dos valores observados em um determinado intervalo. Ou seja, se , por exemplo, a probabilidade de uma realização cair entre e é simplesmente onde é o densidade do padrão normal.XN(μ,σ2)ababϕ(x)dxϕ

Quando pensamos em fazer uma estimativa MLE de um parâmetro, digamos, , escrevemos a densidade conjunta de, digamos N , variáveis ​​aleatórias X_1 .. X_N e diferenciamos o log-verossimilhança em \ mu , defina igual a 0 e resolva para \ mu . A interpretação frequentemente dada é "dados os dados, parâmetro que torna essa função de densidade mais plausível".μNX1..XNμμ

A parte que está me incomodando é a seguinte: temos uma densidade de N rv e a probabilidade de obtermos uma realização específica, digamos, nossa amostra, é exatamente 0. Por que faz sentido maximizar a densidade da articulação, dados nossos dados ( mais uma vez, a probabilidade de observar nossa amostra real é exatamente 0)?

A única racionalização que eu pude sugerir é que queremos que o PDF seja o mais alto possível em torno de nossa amostra observada, de modo que a integral na região (e, portanto, a probabilidade de observar coisas nessa região) seja mais alta.

Alex
fonte
1
Pela mesma razão, usamos densidades de probabilidade stats.stackexchange.com/q/4220/35989
Tim
Entendo (acho) por que faz sentido usar densidades. O que não entendo é por que faz sentido maximizar uma densidade condicionada à observação de uma amostra que tem 0 probabilidade de ocorrência.
Alex #
2
Porque as densidades de probabilidade nos dizem quais valores são relativamente mais prováveis ​​que outros.
Tim
Se você tiver tempo para responder completamente à pergunta, acho que seria mais útil para mim e para a próxima pessoa.
Alex #
Porque, felizmente, a probabilidade não é uma probabilidade!
Adamo

Respostas:

18

Pθ(X=x)xδδ

Os dados foram analisados ​​por meio de análise estatística.

δ

Embora ele estivesse sob a denominação de "valor mais provável" e usasse um princípio de probabilidade inversa (inferência bayesiana) com um plano anterior, Carl Friedrich Gauß já havia obtido em 1809 um estimador de probabilidade máxima para o parâmetro de variância de uma distribuição Normal. Hald (1999) menciona várias outras ocorrências de estimadores de máxima verossimilhança antes do artigo de Fisher de 1912, que estabelece o princípio geral.

(x1,...,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=registrofθ(x)f0 0(x)dx
f0 0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
fθ

Xi'an
fonte
Obrigado pela resposta. Você poderia expandir um pouco o argumento KL? Não estou vendo como é esse o caso imediatamente.
Alex