MLE para distribuição em triângulo?

12

É possível aplicar o procedimento MLE usual à distribuição do triângulo? - Estou tentando, mas pareço estar bloqueado em uma etapa ou outra da matemática pela maneira como a distribuição é definida. Estou tentando usar o fato de conhecer o número de amostras acima e abaixo de c (sem saber c): esses 2 números são cn e (1-c) n, se n for o número total de amostras. No entanto, isso não parece ajudar na derivação. O momento dos momentos fornece um estimador para c sem muito problema. Qual é a natureza exata da obstrução ao MLE aqui (se é que existe mesmo)?

Mais detalhes:

Vamos considerar em e a distribuição definida em por: c[0,1][0,1]

f(x;c)=2xc se x <c se c <= x
f(x;c)=2(1x)(1c)

Vamos pegar um iid samples desta distribuição da probabilidade logarítmica de c, dado este exemplo:n{xi}

l^(c|{xi})=i=1nln(f(xi|c))

Estou então tentando usar o fato de que, dada a forma de , sabemos que as amostras ficarão abaixo do (desconhecido) , e ficará acima de . IMHO, isso permite decompor a soma na expressão da probabilidade logarítmica assim:fcnc(1c)nc

l^(c|{xi})=i=1cnln2xic+i=1(1c)nln2(1xi)1c

Aqui, não tenho certeza de como proceder. O MLE envolverá a obtenção de um wrt derivado da probabilidade logarítmica, mas eu tenho como o limite superior da soma, o que parece bloquear isso. Eu poderia tentar com outra forma de probabilidade de log, usando funções de indicador:cc

l^(c|{xi})=i=1n{xi<c}ln2xic+i=1n{c<=xi}ln2(1xi)1c

Mas derivar os indicadores também não parece fácil, embora os deltas do Dirac possam permitir continuar (enquanto ainda temos indicadores, pois precisamos derivar produtos).

Então, aqui estou bloqueado no MLE. Qualquer ideia?

Frank
fonte
Se for para algum assunto, adicione a etiqueta de auto-estudo. Caso contrário, explique como o problema surge.
Glen_b -Reinstate Monica
Obrigado pela atualização; torna muito mais fácil dizer coisas sensatas em resposta, uma vez que reduz bastante o escopo dos casos a serem tratados. Você poderia considerar meu comentário anterior. Ou isso se enquadra na etiqueta de auto-estudo ou não, em ambos os casos eu perguntei se você faria algo.
Glen_b -Reinstar Monica
Isso não é para uma lição de casa ou uma aula. Surge no meu trabalho. Temos outro estimador a partir do método dos momentos, mas estou tentando entender melhor o que está acontecendo com o MLE aqui.
Frank
OK; isso me dá mais margem de manobra. Veja minha resposta atualizada. Provavelmente farei mais acréscimos em breve
Glen_b -Reinstar Monica
Referências / links adicionados
Glen_b -Reinstate Monica

Respostas:

10

É possível aplicar o procedimento MLE usual à distribuição do triângulo?

Certamente! Embora existam algumas esquisitices para lidar, é possível calcular MLEs nesse caso.

No entanto, se por "procedimento usual" você quer dizer "pegar derivadas da probabilidade logarítmica e definir igual a zero", talvez não.

Qual é a natureza exata da obstrução ao MLE aqui (se é que existe mesmo)?

Você já tentou desenhar a probabilidade?

-

Acompanhamento após esclarecimento da questão:

A pergunta sobre desenhar a probabilidade não era um comentário ocioso, mas central para a questão.

MLE envolverá a tomada de um derivado

Não. O MLE envolve encontrar o argmax de uma função. Isso envolve apenas encontrar os zeros de um derivado sob certas condições ... que não se aplicam aqui. Na melhor das hipóteses, se você conseguir fazer isso, identificará alguns mínimos locais .

Como minha pergunta anterior sugeriu, observe a probabilidade.

Aqui está uma amostra, de 10 observações de uma distribuição triangular em (0,1):y

0.5067705 0.2345473 0.4121822 0.3780912 0.3085981 0.3867052 0.4177924
0.5009028 0.8420312 0.2588613

Aqui estão as funções de probabilidade e probabilidade de log para nesses dados: cprobabilidade de pico de triangular

probabilidade logarítmica para o pico de

As linhas cinzas marcam os valores dos dados (eu provavelmente deveria ter gerado uma nova amostra para obter uma melhor separação dos valores). Os pontos pretos marcam a probabilidade / probabilidade logarítmica desses valores.

Aqui está um zoom próximo ao máximo da probabilidade, para ver mais detalhes:

Detalhe da probabilidade

Como você pode ver pela probabilidade, em muitas estatísticas da ordem, a função de probabilidade possui 'cantos' acentuados - pontos em que a derivada não existe (o que não é surpresa - o pdf original tem um canto e estamos analisando produto de pdfs). É o caso da distribuição triangular (que há cúspides nas estatísticas do pedido) e o máximo sempre ocorre em uma das estatísticas do pedido. (Essas cúspides ocorrem nas estatísticas de pedidos não são exclusivas das distribuições triangulares; por exemplo, a densidade de Laplace tem um canto e, como resultado, a probabilidade de seu centro ter um em cada estatística de pedidos.)

Como acontece na minha amostra, o máximo ocorre como a estatística de quarta ordem, 0,3780912

Então, para encontrar o MLE de em (0,1), basta encontrar a probabilidade em cada observação. Aquele com maior probabilidade é o MLE de .cc

Uma referência útil é o capítulo 1 de " Beyond Beta ", de Johan van Dorp e Samuel Kotz. Por acaso, o Capítulo 1 é um capítulo 'amostra' gratuito para o livro - você pode baixá-lo aqui .

Há um pequeno e adorável artigo de Eddie Oliver sobre esse assunto com a distribuição triangular, eu acho no American Statistician (que faz basicamente os mesmos pontos; acho que foi no canto do professor). Se eu conseguir localizá-lo, darei como referência.

Edit: aqui está:

EH Oliver (1972), Uma Máxima Probabilidade de Probabilidade,
The American Statistician , Vol. 26, Edição 3, Junho, p43-44

( link do editor )

Se você conseguir se apossar dele com facilidade, vale a pena dar uma olhada, mas esse capítulo de Dorp e Kotz cobre a maioria das questões relevantes, por isso não é crucial.


Como acompanhamento da pergunta nos comentários - mesmo se você pudesse encontrar uma maneira de 'suavizar' os cantos, ainda teria que lidar com o fato de poder obter vários máximos locais:

dois máximos locais

No entanto, pode ser possível encontrar estimadores que tenham propriedades muito boas (melhores que o método dos momentos), que você pode anotar facilmente. Mas ML no triangular em (0,1) é algumas linhas de código.

Se é uma questão de grandes quantidades de dados, isso também pode ser tratado, mas seria outra questão, eu acho. Por exemplo, nem todos os pontos de dados podem ser máximos, o que reduz o trabalho e há outras economias que podem ser feitas.

Glen_b
fonte
Obrigado - tentarei postar minha tentativa fracassada, mostrando de que distribuição estou falando exatamente e onde acho que estou bloqueado.
Frank
Obrigado pela explicação detalhada! No entanto, tive outra ideia: suponha que eu possa encontrar uma família de funções que converge para a distribuição triangular, mas não seria por partes - eu poderia usar isso para derivar um MLE analiticamente, depois assumir o limite e assumir que eu teria um MLE do própria distribuição triangular?
24413 Frank
Possivelmente - eu acho que isso pode depender do processo de limite específico que você usa ... e você provavelmente ainda terá vários máximos locais, de modo que provavelmente só poupa a avaliação da probabilidade próxima das estatísticas de ordem extrema - mas mesmo que funcionou, por que você tentaria fazer algo tão complicado? O que há de errado com o ML na distribuição triangular? É realmente muito simples de fazer na prática.
Glen_b -Reinstate Monica
2
Devo dizer que esse MLE para c com base em estatísticas de ordem é muito bom, embora a derivação no capítulo acima dê algum trabalho (embora não seja muito difícil) - bela ilustração de que a essência do MLE está no argmax (é claro!), ao invés da derivada (como você apontou, e eu concordo plenamente, ocorreu-me trabalhar a montante da etapa derivada "usual" (ou seja, apenas se preocupe em maximizar, por qualquer meio), mas eu não o segui.
12763 Frank
11
@Frank: Uma referência adicional é Huang e Shen (2007). Mais probabilidades de probabilidade máxima , Journal of Statistical Planning and Inference, Volume 137, Volume 137, Edição 7, Julho, pp 2151-2155. Glen: Por estatística de pedidos , você quer dizer apenas os valores ordenados ? xi
COOLSerdash