Existem alternativas à simulação para determinar a distribuição do número de eventos de dois processos Poisson não homogêneos dependentes?

8

Um modelo "de última geração" para a distribuição de gols marcados em uma partida de futebol é o de Dixon e Robinson (1998) "Um modelo de processo de nascimento para partidas de futebol de associação", responsável por dois fenômenos principais:

1) Mais gols são marcados no final dos jogos do que no início (supostamente devido ao cansaço sofrido pelas duas equipes)

2) As taxas de pontuação dependem da linha de pontuação atual por uma infinidade de razões, como equipes com uma vantagem se tornando complacentes ou equipes que preferem disputar um empate, em vez de arriscar uma perda ao tentar a vitória

O modelo assume que os gols marcados pelas equipes da casa e fora de uma partida seguem processos não homogêneos de Poisson. Seja o tempo decorrido em uma partida, normalizado para cair entre 0 e 1 , o vetor x comprimento t H denota os horários em que a equipe da casa marcou gols e o vetor comprimento y t A denota os horários em que a equipe visitante marcou gols. A probabilidade da partida é entãot01xtHytA

L(tH,tA)=exp(01λ(t)dt)i=1xλ(tHi)x!exp(01μ(t)dt)j=1yμ(tAj)y!

onde é a taxa de pontuação da equipe da casa no tempo t dependente de uma combinação de fatores homogêneos no tempo (por exemplo, capacidade de ataque do time da casa versus capacidade de defesa da equipe visitante, vantagem em casa) e fatores não homogêneos do tempo (por exemplo, linha de pontuação no tempo t ) Da mesma forma para μ ( t ) .λ(t)ttμ(t)

Os dois processos são dependentes porque, quando uma equipe marca a linha de pontuação muda e as taxas de pontuação são dependentes da linha de pontuação.

A probabilidade pode ser facilmente avaliada executando a integração no expoente numericamente. Portanto, é simples calcular os parâmetros do modelo (habilidades da equipe, vantagem em casa, efeito do tempo, parâmetros da linha de pontuação etc.) via probabilidade máxima.

Em termos de previsão, quantidades óbvias de interesse são:

  • : equipe da casa venceP(x>y)
  • : equipe visitante venceP(x<y)
  • : desenharP(x=y)
  • Probabilidade de linhas de pontuação específicas, por exemplo, P(x=1,y=0)
  • Probabilidade de total de gols na partida, por exemplo, P((x+y)<2.5)

Para calcular essas quantidades (aproximadamente) com base em um conjunto de parâmetros do modelo, poderíamos usar os métodos de Monte Carlo para gerar correspondências de acordo com esses processos e, em seguida, calcular as frequências de cada pontuação final. A simulação dos processos é relativamente direta, gerando metas a partir de um único processo Poisson homogêneo envolvente em conjunto com a amostragem por rejeição e depois distribuindo-as para a equipe da casa ou fora de acordo.

A desvantagem dessa abordagem é, obviamente, a carga computacional da simulação de Monte Carlo. Considere tentar fazer previsões em tempo real à medida que as partidas estão sendo disputadas, das quais pode haver muitas acontecendo simultaneamente, e isso rapidamente se torna motivo de preocupação.

Minha pergunta, portanto, é se existem abordagens alternativas que podemos considerar que não incorrem, como alto custo computacional (mesmo que elas dependam de uma aproximação que sacrifique a precisão para facilitar o cálculo)?


Para maior clareza, não estou procurando sugestões (básicas) sobre como implementar com eficiência a simulação de Monte Carlo, que eu já escrevi em C multithread, usa números quase aleatórios que foram pré-gerados usando desenrolamento e explorações por desbaste por partes. alcançar uma taxa de aceitação muito alta. Se você acha que ainda há espaço para um aumento dramático no desempenho, é claro que sou todo ouvidos, mas realmente estou procurando uma abordagem fundamentalmente diferente!

M. Berk
fonte

Respostas:

1

Esse é um problema interessante. Não tenho certeza de ter cedido tudo o que você quer dizer, mas você já pensou em reformular alguns de seus problemas como testes de hipótese? Gostar:

  • hipótese nula H0: x>y
  • hipótese alternativa H1: xy

e depois realizar um teste de razão de verossimilhança? Então o valor p extraído informa se H0 é rejeitado, dado um certo nível de significância.

A razão pela qual estou mencionando isso é que realizar um teste de razão de verossimilhança é o mesmo que realizar uma minimização 2, que pode ser muito mais rápida que a integração do MC. No entanto, a integral dentro da exp ainda pode exigir uma integração.

HTH

Renard
fonte
0

Dirijo dois problemas com a pergunta:

  1. Os chamados fatores não homogêneos de tempo impedem que o processo seja Poisson, porque o número de objetivos em algum intervalo de tempo não é independente do número anterior de objetivos. Em outras palavras, a taxa de transição depende do estado. Até o artigo vinculado (P.7) chama cada processo como um processo de nascimento, reduzindo apenas a um processo de Poisson homogêneo quando a intensidade é constante.

  2. e yx!y!

Em seguida, para abordar a questão da distribuição das linhas de pontuação, ressaltarei que, embora não seja mencionada no artigo vinculado, a linha de pontuação pode ser modelada como uma processo de nascimento-morte :

px,y(t)=λx1,y(t)px1,y(t)+μx,y1(t)px,y1(t)(λx,y(t)+μx,y(t))px,y(t)
px,y(0)=δx,y
λ1,y(t)=0
μx,1(t)=0
xypx,y(t)p1,0(t)x=1P(x+y<2.5)P(x>y)P(y<x)P(x=y)px>max,ypx,y>max são desprezíveis.

xy pode ser mais eficiente.

λx,y(t)μx,y(t)

max=2;
\[Lambda][x_,y_,t_]=1;
\[Mu][x_,y_,t_]=1;

\[Lambda][-1,y_,t_]=0;
\[Mu][x_,-1,t_]=0;

DSolve[Flatten[Table[{
D[p[x,y,t],t]==\[Lambda][x-1,y,t]p[x-1,y,t]+\[Mu][x,y-1,t]p[x,y-1,t]
             -(\[Lambda][x,y,t]+\[Mu][x,y,t])p[x,y,t],
p[x,y,0]==DiscreteDelta[x,y]},{x,0,max-1},{y,0,max-1}]],
Flatten[Table[p[x,y,t],{x,0,max-1},{y,0,max-1}]],t]

{{p(0,0,t)e2t,p(0,1,t)e2tt,p(1,0,t)e2tt,p(1,1,t)e2tt2}}
obsoleto
fonte