Como modelar a soma das variáveis ​​aleatórias de Bernoulli para dados dependentes?

9

Tenho quase as mesmas perguntas como esta: Como modelar eficientemente a soma das variáveis ​​aleatórias de Bernoulli?

Mas a configuração é bem diferente:

  1. P ( X i = 1 ) = p i N p iS=i=1,NXi , , ~ 20, ~ 0,1P(Xi=1)=piNpi

  2. Temos os dados para os resultados das variáveis ​​aleatórias de Bernoulli: ,Xi,jSj=i=1,NXi,j

  3. Se estimarmos com estimativa de probabilidade máxima (e obter ), verifica-se que é muito maior que esperado pelos outros critérios:pip^iMLEP^{S=3}(p^iMLE)P^{S=3}(p^iMLE)P^expected{S=3}0.05

  4. Portanto, e não podem ser tratados como independentes (eles têm pequena dependência).XiXj (j>k)

  5. Existem algumas restrições como estas: e (conhecido), que devem ajudar na estimativa de .pi+1pis2P^{S=s}=AP{S}

Como poderíamos tentar modelar a soma das variáveis ​​aleatórias de Bernoulli nesse caso?

Que literatura poderia ser útil para resolver a tarefa?

ATUALIZADA

Existem mais algumas idéias:

(1) É possível supor que a dependência desconhecida entre comece após 1 ou mais sucessos em série. Então, quando , e .Xii=1,KXi>0pK+1pK+1pK+1<pK+1

(2) Para usar o MLE, precisamos do modelo menos questionável. Aqui está uma variante:

P{X1,...,Xk}=(1p1)...(1pk) se para qualquer k se e e para qualquer k.i=1,kXi=0P{X1,...,Xk,Xk+1,...,XN}=(1p1)...pkP{Xk+1,...,XN}i=1,k1Xi=0Xk=1P{Xk+1=1,Xk+2=1,...,XN=1}pk+1pk+2...pN

(3) Como nos interessamos apenas por , podemos definir (a probabilidade de sucesso para N- (k + 1) +1 summands a partir da cauda). E use a parametrizaçãoP{S}P{Xk+1,...,XN}P{i=1,kXi=s;N(k+1)+1=l}i=k+1,NXiP{i=k,NXi=s;Nk+1=l}=ps,l

(4) Use MLE para o modelo com base nos parâmetros e com para (e qualquer ) e algumas outras restrições nativas .p1,...,pNp0,1,p1,1;p0,2,p1,2,p2,2;...ps,l=0s6l

Está tudo bem com este plano?

ATUALIZADO 2

Alguns exemplos de distribuição empírica (vermelha) em comparação com a distribuição de Poisson (azul) (as médias de poisson são 2,22 e 2,45, os tamanhos das amostras são 332 e 259):P{S}

sample1 sample2

Para amostras (A1, A2) com os meios de Poisson 2,28 e 2,51 (os tamanhos das amostras são 303 e 249):

sample3 sample4

Para o samlpe associado A1 + A2 (o tamanho da amostra é 552):

amostra 3 + amostra 4

Parece que alguma correção para Poisson deve ser o melhor modelo :).

Andrey
fonte
2
Quais são os ? Xi,j
chl
11
@Andrey As fórmulas em (2) e a segunda restrição em (4) não fazem sentido: o que significam os chapéus em (4)? O que é ? (Você definiu apenas , não ) A expressão em (4) é uma soma de três produtos ou algo mais? SSjS
whuber
Xi,j são resultados aleatórios de Bernoulli (o i-ésimo resultado na j-ésima série), é o j-ésimo resultado da soma (a soma da série). é a variável aleatória da soma; os chapéus em (4) significam as estimativas. Portanto, há algumas informações adicionais sobre a soma dos valores mais baixos de . Desculpe pela confusão. SjSS
Andrey

Respostas:

3

Uma abordagem seria modelar os com um modelo linear generalizado (GLM). Aqui, você formularia , a probabilidade de sucesso no ésimo teste como uma função (linear logística) da história recente da observação. Então, você está montando essencialmente um GLM autoregressivo em que o ruído é Bernoulli e a função de link é logit. A configuração é:Xpii

pi=f(b+a1Xi1+a2Xi2+akXik) , em que

f(x)=11+exp(x) e

XiBernoulli(pi)

Os parâmetros do modelo são , que podem ser estimados por regressão logística. (Tudo o que você precisa fazer é configurar sua matriz de design usando a parte relevante do histórico de observação em cada tentativa e passar isso para uma função de estimativa de regressão logística; a probabilidade do log é côncava, portanto, existe um máximo global exclusivo para os parâmetros). Se os resultados são realmente independentes, então os serão definidos como zero; positivo significa que os subsequentes aumentam sempre que um sucesso é observado.{b,a1,ak}aiaipi

O modelo não fornece uma expressão simples para a probabilidade sobre a soma dos 's, mas isso é fácil de calcular por simulação (filtragem de partículas ou MCMC), pois o modelo possui uma estrutura Markoviana simples.Xi

Esse tipo de modelo tem sido utilizado com grande sucesso para modelar dependências temporais entre "picos" de neurônios no cérebro, e há uma extensa literatura sobre modelos de processos pontuais autoregressivos. Veja, por exemplo, Truccolo et al 2005 (embora este artigo use uma probabilidade de Poisson em vez de Bernoulli, mas o mapeamento de um para o outro é direto).

jpillow
fonte
1

Se a dependência é devido ao aglomerado, um modelo composto de Poisson pode ser a solução como um modelo de . Uma referência um tanto aleatória é essa de Barbour e Chryssaphinou.Sj

Em uma direção completamente diferente, já que você indica que é 20 e, portanto, relativamente pequeno, pode ser criar um modelo gráfico dos , mas não sei se sua configuração e dados tornam isso possível. Como comentários do @chl, será útil se você descrever o que são os .NXijXi,j

Se os representam medições seqüenciais, por exemplo, ao longo do tempo, e a dependência está relacionada a isso, uma terceira possibilidade - e até certo ponto estender um compromisso entre as duas sugestões acima - é usar um modelo Markov oculto de o 's.Xi,jXi,j

NRH
fonte
Xi,j são resultados aleatórios de Bernoulli. Desculpe pela imprecisão. Portanto, é a soma das pontuações para equipes esportivas por intervalos iguais de tempo sequenciais. Acontece que, após o primeiro gol ser marcado, as probabilidades do próximo gol no intervalo serão diferentes. Xi
Andrey