Estimativa do parâmetro de distribuição exponencial com dados em bin

8

Eu tenho os seguintes dados, que podem ser modelados por distribuição exponencial

Time        0-20  20-40    40-60  60-90   90-120    120-inf
Frequency   41     19       16      13        9        2

Para testar se os dados seguem a distribuição exponencial, usarei a estatística de teste do qui-quadrado. Mas, para isso, também preciso calcular lambda ( ).MLE=1X¯

Então, minha pergunta é: como devemos escolher o ponto médio do intervalo, se o último intervalo for de 120 até o infinito?

Daniel Yefimov
fonte

Respostas:

10

Eu não usaria o ponto médio para nenhum desses intervalos (talvez seja um palpite inicial para algum procedimento iterativo).

Se os dados realmente vieram de uma distribuição exponencial, os valores dentro de cada posição devem estar inclinados à direita; seria de esperar que a média permanecesse da média dos limites do compartimento.

Observe que a equação é adequada se você tiver todos os dados. Com os dados em bin, você precisa maximizar a probabilidade de um exponencial em bin (ou seja, censurado por intervalo).λ^=1X¯

[A contribuição para a probabilidade das observações no bin - aquelas entre e - é (onde os dois termos em são funções do parâmetro (s) da distribuição).]niiliuinilog(F(li)F(ui))F

Devido à falta de propriedade de memória do exponencial, se você tiver uma boa aproximação para a média do exponencial, também terá uma boa aproximação da quantidade pela qual a média da distribuição acima de algum valor excede .x0x0

Portanto (supondo que você não maximize diretamente a probabilidade * nos dados censurados no intervalo, como sugeri), você pode começar com uma estimativa aproximada da média ( digamos) e usar como um "centro" da cauda superior.m(0)120+m(0)

Isso pode ser usado para obter uma estimativa melhor do parâmetro (e, portanto, da média) e, assim, obter uma estimativa aprimorada da média condicional em cada compartimento, incluindo o topo. [Se você quiser uma abordagem desse tipo, talvez eu me incline a fazer EM diretamente.]

Várias estimativas simples da média podem ser obtidas rapidamente. Por exemplo, como 41% dos valores ocorrem abaixo de 20, que corresponde a uma estimativa da média de fechamento para . Como alternativa, é possível obter uma estimativa rápida da mediana ocular (algo abaixo de 30, talvez cerca de 28); portanto, a média deve estar em algum lugar próximo de ou em torno de .exp(20λ^(0))=10.413828/log(2)40

Qualquer um deles seria razoável para usar como um palpite inicial a uma distância acima de 120 para colocar uma estimativa para a média condicional do último compartimento.

* Uma alternativa para maximizar a probabilidade seria minimizar a estatística qui-quadrado; o mesmo ajuste para df seria usado nessa instância. A estatística qui-quadrado é relativamente fácil de calcular e bastante simples de otimizar para um único parâmetro:
insira a descrição da imagem aqui

Glen_b -Reinstate Monica
fonte
8

Do ponto de vista teórico, a probabilidade da amostra obtida seria escrita como onde são os limites do compartimento (supondo que cada compartimento represente a probabilidade de observar ) e é o número de observações na caixa . Aqui, você tem compartimentos, com e . Em geral, maximizar a probabilidade logarítmica dessa expressão precisará de uma abordagem numérica. Usando

L(λx)=j=1m(eλxj1eλxj)nj,
(x0,x1,,xm)xj1<Xxjnjjm=6(x0,x1,,xm)=(0,20,40,60,90,120,)(n1,,nm)=(41,19,16,13,9,2)No Mathematica , obtive a derivada da probabilidade logarítmica como Isso gera a solução numérica
λ=760sinh10λ+sinh20λ+1090coth15λ3940.
λ^0.025562426096803193.
heropup
fonte
11
(+1) Portanto, uma média de "perto de 38" ou "em torno de 40" :)
Scortchi - Reinstate Monica
1

Se você estiver interessado em um formulário fechado, estimativa simples, o UWSE (Estimador de Espaço de Peso Único) pode ser útil. Em particular, se é a frequência relativa de observações no intervalo , então: w[0,20]^  [0,20] 

 λUWSE^=ln(1w[0,20]^)20 

Nesse caso, e, portanto, w[0,20]^=0.41 

 λUWSE^=0.02638164 

No entanto, tudo o que se pode dizer do UWSE é que é uma estimativa consistente. Aqui está um link para a explicação completa do estimador: https://paradsp.wordpress.com/ - role até o fim.

CYP450
fonte
Essa é uma ideia interessante, mas parece que ela não foi projetada para ser usada em situações em que você tem muito mais informações do que realmente está usando. No presente caso, existem seis contêineres sem sobreposição. Seria uma pena ignorar cinco dessas acusações arbitrariamente.
whuber
11
Você está absolutamente certo. O UWSE foi planejado para trabalhar com informações mínimas. Seria interessante ver quais outras aplicações surgem. Nesse caso, pensei que seria benéfico para quem não quer entrar no trabalho numérico. A @Glen_b explica isso acima, mas no final das contas se enquadra na categoria UWSE - que é mais geral.
precisa