Tenho quase as mesmas perguntas como esta: Como modelar eficientemente a soma das variáveis aleatórias de Bernoulli?
Mas a configuração é bem diferente:
P ( X i = 1 ) = p i N p i , , ~ 20, ~ 0,1
Temos os dados para os resultados das variáveis aleatórias de Bernoulli: ,
Se estimarmos com estimativa de probabilidade máxima (e obter ), verifica-se que é muito maior que esperado pelos outros critérios:
Portanto, e não podem ser tratados como independentes (eles têm pequena dependência).
Existem algumas restrições como estas: e (conhecido), que devem ajudar na estimativa de .
Como poderíamos tentar modelar a soma das variáveis aleatórias de Bernoulli nesse caso?
Que literatura poderia ser útil para resolver a tarefa?
ATUALIZADA
Existem mais algumas idéias:
(1) É possível supor que a dependência desconhecida entre comece após 1 ou mais sucessos em série. Então, quando , e .
(2) Para usar o MLE, precisamos do modelo menos questionável. Aqui está uma variante:
se para qualquer k se e e para qualquer k.
(3) Como nos interessamos apenas por , podemos definir (a probabilidade de sucesso para N- (k + 1) +1 summands a partir da cauda). E use a parametrização
(4) Use MLE para o modelo com base nos parâmetros e com para (e qualquer ) e algumas outras restrições nativas .
Está tudo bem com este plano?
ATUALIZADO 2
Alguns exemplos de distribuição empírica (vermelha) em comparação com a distribuição de Poisson (azul) (as médias de poisson são 2,22 e 2,45, os tamanhos das amostras são 332 e 259):
Para amostras (A1, A2) com os meios de Poisson 2,28 e 2,51 (os tamanhos das amostras são 303 e 249):
Para o samlpe associado A1 + A2 (o tamanho da amostra é 552):
Parece que alguma correção para Poisson deve ser o melhor modelo :).
Respostas:
Uma abordagem seria modelar os com um modelo linear generalizado (GLM). Aqui, você formularia , a probabilidade de sucesso no ésimo teste como uma função (linear logística) da história recente da observação. Então, você está montando essencialmente um GLM autoregressivo em que o ruído é Bernoulli e a função de link é logit. A configuração é:X pi i
Os parâmetros do modelo são , que podem ser estimados por regressão logística. (Tudo o que você precisa fazer é configurar sua matriz de design usando a parte relevante do histórico de observação em cada tentativa e passar isso para uma função de estimativa de regressão logística; a probabilidade do log é côncava, portanto, existe um máximo global exclusivo para os parâmetros). Se os resultados são realmente independentes, então os serão definidos como zero; positivo significa que os subsequentes aumentam sempre que um sucesso é observado.{b,a1,…ak} ai ai pi
O modelo não fornece uma expressão simples para a probabilidade sobre a soma dos 's, mas isso é fácil de calcular por simulação (filtragem de partículas ou MCMC), pois o modelo possui uma estrutura Markoviana simples.Xi
Esse tipo de modelo tem sido utilizado com grande sucesso para modelar dependências temporais entre "picos" de neurônios no cérebro, e há uma extensa literatura sobre modelos de processos pontuais autoregressivos. Veja, por exemplo, Truccolo et al 2005 (embora este artigo use uma probabilidade de Poisson em vez de Bernoulli, mas o mapeamento de um para o outro é direto).
fonte
Se a dependência é devido ao aglomerado, um modelo composto de Poisson pode ser a solução como um modelo de . Uma referência um tanto aleatória é essa de Barbour e Chryssaphinou.Sj
Em uma direção completamente diferente, já que você indica que é 20 e, portanto, relativamente pequeno, pode ser criar um modelo gráfico dos , mas não sei se sua configuração e dados tornam isso possível. Como comentários do @chl, será útil se você descrever o que são os .N Xij Xi,j
Se os representam medições seqüenciais, por exemplo, ao longo do tempo, e a dependência está relacionada a isso, uma terceira possibilidade - e até certo ponto estender um compromisso entre as duas sugestões acima - é usar um modelo Markov oculto de o 's.Xi,j Xi,j
fonte