Quanto cálculo é necessário para entender a estimativa de máxima verossimilhança?

11

Estou tentando planejar um plano de estudo para aprender MLE. Para fazer isso, estou tentando descobrir qual é o nível mínimo de cálculo necessário para entender o MLE.

É suficiente entender o básico do cálculo (ou seja, encontrar o mínimo e o máximo de funções) para entender o MLE?

histelheim
fonte
2
Como sempre, depende . Se você está apenas tentando compreender o básico, ser capaz de encontrar extremos de funções é uma maneira justa (embora em muitos casos práticos do MLE, o L seja M'd numericamente, nesse caso você também precisa de outras habilidades como algum cálculo básico).
Glen_b -Reinstala Monica
Obrigado. Você poderia explicar o caso mencionado em mais detalhes? Parece interessante.
histelheim
ok, mas agora eu tenho que dar uma resposta. Espere.
Glen_b -Reinstala Monica

Respostas:

20

Para expandir o meu comentário - depende. Se você está apenas tentando compreender o básico, ser capaz de encontrar extremos de funções é uma maneira justa (embora em muitos casos práticos do MLE, a probabilidade seja maximizada numericamente, nesse caso você precisa de outras habilidades e também de algumas cálculo básico).

Deixarei de lado os bons casos simples em que você obtém soluções algébricas explícitas. Mesmo assim, o cálculo é frequentemente muito útil.

Assumirei independência por toda parte. Vamos considerar o caso mais simples possível de otimização de 1 parâmetro. Primeiro, veremos um caso em que podemos obter derivadas e separar uma função do parâmetro e uma estatística.

Considere a densidade Gamma(α,1)

fX(x;α)=1Γ(α)xα1exp(x);x>0;α>0

Então, para uma amostra de tamanho n , a probabilidade é

L(α;x)=i=1nfX(xi;α)

e, portanto, a probabilidade logarítmica é

l(α;x)=i=1nlnfX(xi;α)=i=1nln(1Γ(α)xiα1exp(xi))
=i=1nlnΓ(α)+(α1)lnxixi
=nlnΓ(α)+(α1)Sxnx¯
Sx=i=1nlnxi

ddαl(α;x)=ddα(nlnΓ(α)+(α1)Sxnx¯)
=nΓ(α)Γ(α)+Sx
=nψ(α)+Sx

α^

ψ(α^)=lnG(x)

ψ()G()

α^

ψ(α^)=g

g=lnG(x)

Isso não tem uma solução em termos de funções elementares, deve ser calculado numericamente; pelo menos conseguimos obter uma função do parâmetro de um lado e uma função dos dados do outro. Existem vários algoritmos de busca zero que podem ser usados ​​se você não tiver uma maneira explícita de resolver a equação (mesmo se você estiver sem derivadas, há uma seção binária, por exemplo).

f(x;μ)=14sech2(xμ2).
μ

θ

fX(x;θ)=1π(1+(xθ)2).

Em geral, a probabilidade aqui não tem um máximo local único, mas vários máximos locais. Se você encontrar um máximo local, pode haver outro maior em outro lugar. (Às vezes, as pessoas se concentram em identificar o máximo local mais próximo da mediana, ou algo assim.)

(0,θ)

Em outros casos, o espaço do parâmetro pode ser discreto.

Às vezes, encontrar o máximo pode estar bastante envolvido.

E isso é apenas uma amostra dos problemas com um único parâmetro. Quando você tem vários parâmetros, as coisas se envolvem novamente.

Glen_b -Reinstate Monica
fonte
4

RpR

Algumas facilidades com logaritmos serão definitivamente úteis, pois maximizar o logaritmo da probabilidade geralmente é muito mais fácil do que maximizar a própria probabilidade.

RpR

Stephan Kolassa
fonte