Sempre existe um maximizador para qualquer problema de MLE?

23

Gostaria de saber se há sempre um maximizador para qualquer problema de estimativa de máxima (log-) probabilidade? Em outras palavras, existe alguma distribuição e alguns de seus parâmetros, para os quais o problema do MLE não possui um maximizador?

Minha pergunta vem de uma afirmação de um engenheiro de que a função de custo (probabilidade ou log-verossimilhança, não tenho certeza de qual era o objetivo) no MLE é sempre côncava e, portanto, sempre possui um maximizador.

Obrigado e cumprimentos!

Tim
fonte
8
(+1) Tem certeza de que não há qualificações que não foram declaradas na sua pergunta? Tal como está, a declaração do engenheiro é falsa de muitas maneiras diferentes, é quase difícil saber por onde começar. :)
cardeal
@ cardinal: eu basicamente escrevi o que ouvi. Mas admito que posso perder alguma coisa.
Tim
5
Contra-exemplo (convexidade): Seja iid N ( 0 , σ 2 ) . Embora exista um MLE único, nem a probabilidade nem a probabilidade de log são convexas em σ 2 . X1,X2,,XnN(0,σ2)σ2
cardeal
3
A regressão logística @Tim é um exemplo básico em que o MLE nem sempre existe. Além disso, para algumas funções de link, a probabilidade de log não é côncava.

Respostas:

30

Talvez o engenheiro tenha em mente as famílias exponenciais canônicas: em sua parametrização natural, o espaço dos parâmetros é convexo e a probabilidade do log é côncava (veja Thm 1.6.3 nas Estatísticas Matemáticas de Bickel & Doksum , Volume 1 ). Além disso, sob algumas condições técnicas moderadas (basicamente que o modelo seja de "classificação completa", ou equivalente, que o parâmetro natural seja identificável), a função de probabilidade de log é estritamente côncava, o que implica que existe um maximizador único. (Corolário 1.6.2 na mesma referência.) [Além disso, as notas de aula citadas por @biostat fazem o mesmo ponto.]

Observe que a parametrização natural de uma família exponencial canônica geralmente é diferente da parametrização padrão. Portanto, enquanto @cardinal ressalta que a probabilidade logarítmica da família não é convexa em σ 2 , será côncava nos parâmetros naturais, que são η 1 = μ / σ 2 e η 2 = - 1 / σ 2 . N(μ,σ2)σ2η1=μ/σ2η2=1/σ2

DavidR
fonte
2
(+1) Boa resposta. Conforme sugerido nos meus comentários ao OP, esta é a resposta que eu esperava que fosse publicada (até o contra-exemplo foi cuidadosamente escolhido com isso em mente). :)
cardeal
2
Você pode mostrar isso no modelo gaussiano multivariado?
Royi 26/05
6

A função de verossimilhança frequentemente atinge o máximo para a estimativa do parâmetro de interesse. No entanto, em algum momento o MLE não existe, como na distribuição de misturas gaussianas ou em funções não paramétricas, que possuem mais de um pico (bi ou multimodal). Costumo enfrentar o problema de estimar parâmetros desconhecidos da genética populacional, isto é, taxas de recombinação, efeito da seleção natural.

Um dos motivos também @cardinal aponta que é o espaço paramétrico ilimitado.

Além disso, eu recomendaria o seguinte artigo , consulte a seção 3 (para função) e a Fig.3. No entanto, existem informações de documentos bastante úteis e úteis sobre o MLE.

Biostat
fonte
3
Acho que devo estar entendendo mal o seu exemplo declarado. Quais funções quadráticas têm mais de um pico?
cardeal
@ cardinal: Deixe-me tentar explicar. Seu argumento sobre o parâmetro ilimitado é uma das razões pelas quais a função de probabilidade não atinge o máximo, mesmo em um exemplo simples de distribuição normal. No entanto, meu argumento é da perspectiva da otimização que existe um problema popular dos máximos locais e globais. Enfrentei esse problema frequentemente na genética de populações ao estimar as taxas de recombinação. Além disso, consulte a seção 3 deste artigo (para a função) e a Fig 3. URL do artigo: citeseerx.ist.psu.edu/viewdoc/…
Biostat
Então você está dizendo que "funções quadráticas com mais de um pico" são uma referência a, por exemplo, um modelo de mistura gaussiana, talvez? Nesse caso, uma edição provavelmente poderia esclarecer alguma confusão.
cardeal
Agora está atualizado.
Biostat
2
(+1) Para a atualização. Observe que, nos modelos de mistura gaussiana, a probabilidade ilimitada e os máximos locais múltiplos estão presentes, em geral. Para piorar a situação, a probabilidade se torna ilimitada em soluções particularmente patológicas. Em geral, múltiplos máximos podem não ser tão ruins quanto um problema. Em alguns casos, esses máximos convergem um para o outro com rapidez suficiente para que escolher qualquer um deles ainda possa produzir um estimador razoável (uniforme e eficiente) do parâmetro de interesse assintoticamente.
cardeal
3

Eu admito que posso estar faltando alguma coisa, mas -

Se este for um problema de estimativa, e o objetivo é estimar um parâmetro desconhecido, e se sabe que o parâmetro é proveniente de um conjunto fechado e limitado, e a função de probabilidade é contínua, deve haver um valor para esse parâmetro que maximize a função de probabilidade. Em outras palavras, um máximo deve existir. (Ele não precisa ser exclusivo, mas pelo menos um máximo deve existir. Não há garantia de que todos os máximos locais sejam máximos globais, mas essa não é uma condição necessária para a existência de um máximo.)

Não sei se a função de probabilidade sempre deve ser convexa, mas essa não é uma condição necessária para que exista um máximo.

Se eu esqueci alguma coisa, gostaria de ouvir o que está faltando.

DW
fonte
4
Na ausência de suposições adicionais, a afirmação dada a respeito dos máximos é falsa. Por exemplo, se o espaço do parâmetro estiver fechado e delimitado e a função de probabilidade for contínua nos parâmetros, deverá existir um máximo. Na ausência de uma dessas condições adicionais, o resultado não precisa ser mantido. Em relação à convexidade, ela falha mesmo nos exemplos mais simples e comuns. :)
cardeal
2
(+1) A limitação do espaço do parâmetro não é válida em muitos casos simples, até. Mas, para fins práticos, geralmente sabemos que nossos parâmetros são limitados. :)
cardeal
3

Talvez alguém ache útil o seguinte exemplo simples.

θθ(0 0,1)(0 0,1)θ

{θcabeças1-θcaudas.
Em nenhum dos casos existe um máximo para θ em (0 0,1).
mef
fonte