Proponho tomar, como ponto de partida, o conceito de um processo homogêneo de Poisson . Este é um processo pontual na linha (geralmente pensado e referido como uma linha do "tempo"). As realizações são conjuntos de pontos. Quase certamente, qualquer conjunto limitado de números reais conterá apenas muitos pontos finitos.
As propriedades fundamentais desfrutadas por esse processo, as que usarei repetidamente na análise, são
( Independência ) Os resultados em quaisquer dois conjuntos disjuntos são independentes.
( Homogeneidade ) O número esperado de pontos em qualquer conjunto mensurável com medida finitaé diretamente proporcional a. A constante de proporcionalidade é diferente de zero.UMA| UMA|| UMA|λ
Tudo flui dessas propriedades, como veremos.
Tempos de espera
Vamos estudar os "tempos de espera" deste processo. Dado um tempo de início e duração decorrido , deixar é a probabilidade de que não há pontos ocorrer entre e : isto é, dentro do intervalo . Considere dois intervalos adjacentes, um de para e outro de para . Por independência, essa chance de nenhum ponto estar em sua união é o produto da chance de que nenhum ponto esteja no primeiro e no chance de que nenhum ponto esteja no segundo:st ≥ 0S( s , t )ss + t( s , s + t )rr + sr + sr + s + t
S( r , s + t ) = S( r , s ) S( r + s , t ) .(1)
Por homogeneidade, essas chances permanecem as mesmas quando deslizamos os intervalos. Ou seja, para qualquer , . Em particular, sempre podemos usar para obtersS( r , t ) = S( r + s , t )r = - s
S( r , t ) = S( 0 , t ) = S( T )
para todo , permitindo-nos eliminar a dependência explícita de na notação. Conectar isso em dárr( 1 )
S( s + t ) = S( S ) S( T ) .2)
A homogeneidade torna óbvio que deve ser contínuo (na verdade, diferenciável). É sabido que as únicas soluções para são exponenciais. Uma maneira simples de entender isso é considerar que o logaritmo de é linear e, como , consequentemente, deve haver algum número para o qualS( 2 )SS( 0 ) = 1κ
registro( S( T ) ) = κ t .
Como deve diminuir com o passar do tempo, . Portanto , todas as soluções têm a formaSκ < 0
S( t ) =e- κ t.
É a chance de que nenhum ponto ocorra dentro de um intervalo especificado de comprimento .t
Somações exponenciais
Conserte um intervalo; em virtude da homogeneidade, podemos assumir que começa em e termina (digamos) em . Quase certamente há apenas um número finito de pontos do processo no intervalo , permitindo-nos pedir-lhes . é uma realização de uma variável aleatória regido por : isto é,0 0b( 0 , b )0 <t1 1<t2< ⋯ <tnt1 1T1 1S
Pr (T1 1≤ t ) = 1 - Pr (T1 1> t ) = 1 - S( t ) = 1 -e- κ t.
T2 é similarmente uma variável aleatória independente , onde também é governada por , de ondeT2-T1 1S
Pr (T2≤T1 1+ t ) = 1 -S( t ) = 1 -e- κ t,
e da mesma forma para o restante . Isso demonstra que é exatamente como descrito na pergunta: é o maior número de "somas exponenciais" que se ajustam ao intervalo . É uma realização da variável aleatóriaTEun( 0 , b )
N( 0 , b ) = max {i|T1 1+T2+ ⋯+TEu≤ b } .
Distribuição de veneno
Seja um número inteiro. Qual é a chance, , de que existem exatamente pontos no intervalo ? Vou deduzir a resposta da propriedade ergódica do processo de Poisson, que considero intuitiva: porque o processo dentro do intervalo unitário é o mesmo (e independente) do processo dentro de qualquer intervalo unitário , podemos deduzir propriedades do processo variando para uma única realização e estudando os padrões de pontos que aparecem. Em particular, deve ser igual à proporção limite de tempo em que o número de pontosk ≥ 0pkk[ 0 , 1 ][ 0 , 1 ][ t - 1 , t ]t pkN( t ) =N(t−1,t)no intervalo é igual a . Podemos expressar isso formalmente usando a função indicadora que é igual a quando seu argumento é verdadeiro e é caso contrário:[t−1,t]kI10
pk=limx→∞1x−1∫x1I(N(t)=k)dt.
A integral é a duração total entre e quando o intervalo contém exatamente pontos, enquanto o denominador da fração é o tempo total decorrido de a .1x[t−1,t]k1x
Este é um gráfico de para uma realização de um processo de Poisson com taxa . Linhas horizontais brancas marcam os valores no eixo vertical, que se estende de a . As linhas verticais cinza mostram os horários em que os pontos ocorrem nessa realização. As linhas verticais azuis pontilhadas mostram os mesmos pontos deslocados uma unidade para a direita. A curva vermelha sólida representa começando em . (Ele se estende infinitamente para a direita, mas nem tudo pode ser desenhado!)N(t)λ=2.5k=1,2,304N(t)t=1
N(1)=4 porque quatro pontos (linhas cinzas) aparecem na primeira unidade de tempo, . A trama de , em seguida, sobe por uma unidade de cada vez outra linha cinza é encontrado se deslocam da esquerda para a direita, porque isto é, quando o intervalo pega que ponto. Ela cai em uma unidade cada vez que uma linha azul é encontrado, porque esta é a mesma coisa que perder o valor a partir do intervalo .[0,1]N(t)t[t−1,t]tt−1[t−1,t]
A proporção de tempo gasto em cada altura estima , a chance de que qualquer intervalo de unidades contenha exatamente pontos.kpkk
Suponha que o intervalo contenha pontos. À medida que a deslizamos para a direita, vamos acompanhar os novos pontos captados e os pontos antigos que desaparecem. Duas relações simples determinam tudo:[t−1,t]k
Entre e (para ), o número esperado de novos pontos é . (Isso é homogeneidade.)tt+dtdt≥0λdt
No entanto, o número esperado de pontos perdidos é porque existem pontos localizados aleatoriamente dentro do intervalo. (Isso também se deve à homogeneidade.)kdtk
Quase certamente, no máximo, um ponto é adicionado ou perdido a qualquer instante. (Caso contrário, haveria um limite inferior positivo à chance de dois ou mais pontos aparecerem em intervalos arbitrariamente pequenos , mas como o número esperado de pontos nesses intervalos é apenas --que cresce incrivelmente pequeno com pequeno - isso é impossível.) Assim, existem apenas duas transições que têm chance diferente de zero: de pontos para pontos e de pontos para pontos. Suas taxas instantâneas são[t,t+dt]λdtdtkk + 1kk - 1
τ( k → k +1)=limdt→0 0+λdtdt= λ
e, se ,k ≥ 1
τ( k → k - 1 ) =limdt →0 0+kdtdt= k .
Isso pode parecer complicado, uma vez que estabelece um sistema de equações diferenciais para as infinitas probabilidades . No entanto, como o processo é homogêneo, essas probabilidades são imutáveis.pk
Veja primeiro o caso . A taxa esperada na qual muda (ou seja, zero) é a taxa esperada de transições de estados com menos a taxa esperada de transições para estados com . Assim, em virtude das relações simples (1) e (2),k = 0p0 01 → 0k = 1 0 → 1k = 1
( 1 )p1 1- ( λ )p0 0= 0.
Isso nos permite encontrar em termos de :p1 1p0 0
p1 1= λp0 0.(3)
Agora considere a situação geral . Existem quatro transições potencialmente mudança , os quais devem equilibrar na expectativa : e make-lo diminuir, enquanto que e aumentá-la . Assim, novamente usando as relações simples (1) e (2) para calcular as taxas instantâneas,k > 0pkk → k + 1k → k - 1k + 1 → kk - 1 → k
[ ( λ )pk - 1- ( k )pk] + [ ( k + 1 )pk + 1- ( λ )pk] = 0.
Podemos assumir indutivamente que o primeiro termo entre parênteses se equilibra (algo que acabamos de mostrar no caso ), equilibrando automaticamente o segundo termo entre parênteses e fornecendo a solução com facilidadek = 0
pk + 1=λk + 1pk.4)
As fórmulas e determinam todo o em termos de : a solução é( 3 )( 4 )pkp0 0
pk=p0 0λkk !.(5)
(Prova: esta fórmula satisfaz a condição inicial e a recursão .)( 3 )( 4 )
A conexão entre os parâmetros Exponential e Poisson
Existem duas maneiras de encontrar . p0 0Primeiro, podemos explorar o que aprendemos anteriormente sobre tempos de espera exponenciais: é a chance de uma variável exponencial do parâmetro exceder . Isto ép0 0κ 1 1
p0 0=e- κ.(6)
O segundo é o fato de que as probabilidades somam unidade, de onde
1 =∑k = 0∞p0 0λkk !=p0 0∑k = 0∞λkk !=p0 0eλ.
Portanto
p0 0=e- λ(7)
é o valor único que funciona. Consequentemente agora é totalmente explícito:( 5 )
pk=e- λλkk !.
Esta é a distribuição de Poisson .
A equação e revela que( 6 )( 7 )
κ = λ .
Isso relaciona explicitamente o parâmetro dos tempos de espera exponenciais com o parâmetro da distribuição de Poisson.
Simulação para maior entendimento
A primeira figura não mostrou um intervalo de tempo suficientemente longo para estimar precisão o . Considere, no entanto, uma parte de outra realização de cem vezes maior:pkN( T )
(As linhas verticais não são mais desenhadas, porque são muito numerosas.)
Aqui estão as proporções de tempo gastas para cada . Abaixo deles estão as proporções para a distribuição de Poisson :k( 2,5 )
0 1 2 3 4 5 6 7 8 9
y 0.0745 0.2068 0.2637 0.2215 0.1290 0.0660 0.0235 0.0128 0.0016 6e-04
fit 0.0821 0.2052 0.2565 0.2138 0.1336 0.0668 0.0278 0.0099 0.0031 9e-04
O acordo é aparente - embora ainda imperfeito, porque esse ainda é apenas um pequeno segmento inicial da realização.
Aqui está o R
código usado para produzir as figuras. Experimente lambda
e experimente n
esta análise.
lambda <- 2.5 # Poisson intensity
n <- 1000 # Number of points to realize
x <- cumsum(rexp(n, lambda))# Accumulate the waiting times
# Compute the proportion of times for each `k` and compare to the Poisson distribution.
f <- ecdf(x) # The ECDF does the work of computing N(t)
b <- max(x)
u <- seq(1, b, length.out=10*n)
y <- table(round(n*(f(u) - f(u-1)), 4))
y <- y / sum(y)
fit <- dpois(as.numeric(names(y)), lambda)
round(rbind(y, fit), 4)
# Plot N(t)
y.max <- max(as.numeric(names(y)))
curve(ifelse(x >= 1 & x <= b, n*(f(x) - f(x-1)), NA), 0,b, ylim=c(0, y.max*1.01),
n=max(10001, 10*n), xlab="t", ylab="", col="#00000080",
yaxp=c(0, y.max, y.max), bty="n", yaxt="n", yaxs="i")
rect(0, 0, b, y.max, col="#f4f4f4", border=NA)
abline(h=0:y.max, col="White")
if (n < 1000) {
abline(v=x, lty=1, col="Gray")
abline(v=x[x <= b-1]+1, lty=3, col="Blue")
}
curve(ifelse(x >= 1 & x <= b, n*(f(x) - f(x-1)), NA), add=TRUE,
n=max(10001, 10*n), lwd=2, col="#802020")
ecdf