Eu não usaria o ponto médio para nenhum desses intervalos (talvez seja um palpite inicial para algum procedimento iterativo).
Se os dados realmente vieram de uma distribuição exponencial, os valores dentro de cada posição devem estar inclinados à direita; seria de esperar que a média permanecesse da média dos limites do compartimento.
Observe que a equação é adequada se você tiver todos os dados. Com os dados em bin, você precisa maximizar a probabilidade de um exponencial em bin (ou seja, censurado por intervalo).λ^=1X¯
[A contribuição para a probabilidade das observações no bin - aquelas entre e - é (onde os dois termos em são funções do parâmetro (s) da distribuição).]niiliuinilog(F(li)−F(ui))F
Devido à falta de propriedade de memória do exponencial, se você tiver uma boa aproximação para a média do exponencial, também terá uma boa aproximação da quantidade pela qual a média da distribuição acima de algum valor excede .x0x0
Portanto (supondo que você não maximize diretamente a probabilidade * nos dados censurados no intervalo, como sugeri), você pode começar com uma estimativa aproximada da média ( digamos) e usar como um "centro" da cauda superior.m(0)120+m(0)
Isso pode ser usado para obter uma estimativa melhor do parâmetro (e, portanto, da média) e, assim, obter uma estimativa aprimorada da média condicional em cada compartimento, incluindo o topo. [Se você quiser uma abordagem desse tipo, talvez eu me incline a fazer EM diretamente.]
Várias estimativas simples da média podem ser obtidas rapidamente. Por exemplo, como 41% dos valores ocorrem abaixo de 20, que corresponde a uma estimativa da média de fechamento para . Como alternativa, é possível obter uma estimativa rápida da mediana ocular (algo abaixo de 30, talvez cerca de 28); portanto, a média deve estar em algum lugar próximo de ou em torno de .exp(−20λ^(0))=1−0.413828/log(2)40
Qualquer um deles seria razoável para usar como um palpite inicial a uma distância acima de 120 para colocar uma estimativa para a média condicional do último compartimento.
* Uma alternativa para maximizar a probabilidade seria minimizar a estatística qui-quadrado; o mesmo ajuste para df seria usado nessa instância. A estatística qui-quadrado é relativamente fácil de calcular e bastante simples de otimizar para um único parâmetro:
Se você estiver interessado em um formulário fechado, estimativa simples, o UWSE (Estimador de Espaço de Peso Único) pode ser útil. Em particular, se é a frequência relativa de observações no intervalo , então: w[0,20]^ [0,20]
Nesse caso, e, portanto, w[0,20]^=0.41
No entanto, tudo o que se pode dizer do UWSE é que é uma estimativa consistente. Aqui está um link para a explicação completa do estimador: https://paradsp.wordpress.com/ - role até o fim.
fonte