É possível aplicar o procedimento MLE usual à distribuição do triângulo? - Estou tentando, mas pareço estar bloqueado em uma etapa ou outra da matemática pela maneira como a distribuição é definida. Estou tentando usar o fato de conhecer o número de amostras acima e abaixo de c (sem saber c): esses 2 números são cn e (1-c) n, se n for o número total de amostras. No entanto, isso não parece ajudar na derivação. O momento dos momentos fornece um estimador para c sem muito problema. Qual é a natureza exata da obstrução ao MLE aqui (se é que existe mesmo)?
Mais detalhes:
Vamos considerar em e a distribuição definida em por:
se x <c se c <= x
Vamos pegar um iid samples desta distribuição da probabilidade logarítmica de c, dado este exemplo:
Estou então tentando usar o fato de que, dada a forma de , sabemos que as amostras ficarão abaixo do (desconhecido) , e ficará acima de . IMHO, isso permite decompor a soma na expressão da probabilidade logarítmica assim:
Aqui, não tenho certeza de como proceder. O MLE envolverá a obtenção de um wrt derivado da probabilidade logarítmica, mas eu tenho como o limite superior da soma, o que parece bloquear isso. Eu poderia tentar com outra forma de probabilidade de log, usando funções de indicador:
Mas derivar os indicadores também não parece fácil, embora os deltas do Dirac possam permitir continuar (enquanto ainda temos indicadores, pois precisamos derivar produtos).
Então, aqui estou bloqueado no MLE. Qualquer ideia?
Respostas:
Certamente! Embora existam algumas esquisitices para lidar, é possível calcular MLEs nesse caso.
No entanto, se por "procedimento usual" você quer dizer "pegar derivadas da probabilidade logarítmica e definir igual a zero", talvez não.
Você já tentou desenhar a probabilidade?
-
Acompanhamento após esclarecimento da questão:
A pergunta sobre desenhar a probabilidade não era um comentário ocioso, mas central para a questão.
Não. O MLE envolve encontrar o argmax de uma função. Isso envolve apenas encontrar os zeros de um derivado sob certas condições ... que não se aplicam aqui. Na melhor das hipóteses, se você conseguir fazer isso, identificará alguns mínimos locais .
Como minha pergunta anterior sugeriu, observe a probabilidade.
Aqui está uma amostra, de 10 observações de uma distribuição triangular em (0,1):y
Aqui estão as funções de probabilidade e probabilidade de log para nesses dados:c
As linhas cinzas marcam os valores dos dados (eu provavelmente deveria ter gerado uma nova amostra para obter uma melhor separação dos valores). Os pontos pretos marcam a probabilidade / probabilidade logarítmica desses valores.
Aqui está um zoom próximo ao máximo da probabilidade, para ver mais detalhes:
Como você pode ver pela probabilidade, em muitas estatísticas da ordem, a função de probabilidade possui 'cantos' acentuados - pontos em que a derivada não existe (o que não é surpresa - o pdf original tem um canto e estamos analisando produto de pdfs). É o caso da distribuição triangular (que há cúspides nas estatísticas do pedido) e o máximo sempre ocorre em uma das estatísticas do pedido. (Essas cúspides ocorrem nas estatísticas de pedidos não são exclusivas das distribuições triangulares; por exemplo, a densidade de Laplace tem um canto e, como resultado, a probabilidade de seu centro ter um em cada estatística de pedidos.)
Como acontece na minha amostra, o máximo ocorre como a estatística de quarta ordem, 0,3780912
Então, para encontrar o MLE de em (0,1), basta encontrar a probabilidade em cada observação. Aquele com maior probabilidade é o MLE de .c c
Uma referência útil é o capítulo 1 de " Beyond Beta ", de Johan van Dorp e Samuel Kotz. Por acaso, o Capítulo 1 é um capítulo 'amostra' gratuito para o livro - você pode baixá-lo aqui .
Há um pequeno e adorável artigo de Eddie Oliver sobre esse assunto com a distribuição triangular, eu acho no American Statistician (que faz basicamente os mesmos pontos; acho que foi no canto do professor). Se eu conseguir localizá-lo, darei como referência.
Edit: aqui está:
EH Oliver (1972), Uma Máxima Probabilidade de Probabilidade,
The American Statistician , Vol. 26, Edição 3, Junho, p43-44
( link do editor )
Se você conseguir se apossar dele com facilidade, vale a pena dar uma olhada, mas esse capítulo de Dorp e Kotz cobre a maioria das questões relevantes, por isso não é crucial.
Como acompanhamento da pergunta nos comentários - mesmo se você pudesse encontrar uma maneira de 'suavizar' os cantos, ainda teria que lidar com o fato de poder obter vários máximos locais:
No entanto, pode ser possível encontrar estimadores que tenham propriedades muito boas (melhores que o método dos momentos), que você pode anotar facilmente. Mas ML no triangular em (0,1) é algumas linhas de código.
Se é uma questão de grandes quantidades de dados, isso também pode ser tratado, mas seria outra questão, eu acho. Por exemplo, nem todos os pontos de dados podem ser máximos, o que reduz o trabalho e há outras economias que podem ser feitas.
fonte