Qual é a distribuição da média arredondada das variáveis aleatórias de Poisson?

20

Se eu tiver variáveis aleatórias distribuídas por Poisson com os parâmetros , qual é a distribuição de (ou seja, o piso inteiro da média)? $X_1,X_2,\ldots,X_n$ $\lambda_1, \lambda_2,\ldots, \lambda_n$ $Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor$

Uma soma de Poissons também é Poisson, mas não tenho confiança suficiente em estatísticas para determinar se é o mesmo para o caso acima.

poisson-distribution average Lubo Antonov
fonte

@amoeba Voltei sua edição do título, porque na verdade não é "arredondamento". A edição anterior do Cardinal, embora não seja tão precisa, parece preferível porque é precisa.

whuber

@whuber Okay. Eu estava hesitando ao fazer esta edição, mas decidi incluir a palavra "arredondamento", porque atualmente o título não indica a principal dificuldade aqui (e, portanto, é de certa forma enganosa). O termo apropriado deve ser "arredondamento para baixo", então talvez "Qual é a distribuição de uma média de variáveis aleatórias de Poisson, arredondadas para baixo ?" - apesar de admitir que parece um pouco complicado.

Ameba diz Reinstate Monica

@amoeba É claro que outras edições são bem-vindas!

whuber

27

Uma generalização da questão pede a distribuição de quando a distribuição de é conhecida e suportada nos números naturais. (Na questão, tem uma distribuição de Poisson do parâmetro e .) $Y = \lfloor X/m \rfloor$ $X$ $X$ $\lambda = \lambda_1 + \lambda_2 + \cdots + \lambda_n$ $m=n$

A distribuição de é facilmente determinada pela distribuição de , cuja probabilidade de geração de função (PGF) pode ser determinada em termos da PGF de . Aqui está um resumo da derivação. $Y$ $mY$ $X$

Escreva para o pgf de , onde (por definição) . é construído a partir de forma que seu pgf, , seja $p(x) = p_0 + p_1 x + \cdots + p_n x^n + \cdots$ $X$ $p_n = \Pr(X=n)$ $mY$ $X$ $q$

\begin{aligned} q (x) & = & (p_{0} + p_{1} + \dots + p_{m - 1}) + (p_{m} + p_{m + 1} + \dots + p_{2 m - 1}) x^{m} + \dots + \\ (p_{n m} + p_{n m + 1} + \dots + p_{(n + 1) m - 1}) x^{n m} + \dots . \end{aligned}

$\eqalign{q(x) &=& \left(p_0 + p_1 + \cdots + p_{m-1}\right) + \left(p_m + p_{m+1} + \cdots + p_{2m-1}\right)x^m + \cdots + \\&&\left(p_{nm} + p_{nm+1} + \cdots + p_{(n+1)m-1}\right)x^{nm} + \cdots.}$

Porque isso converge absolutamente para , podemos reorganizar os termos em uma soma de partes do formulário $|x| \le 1$

D_{m, t} p (x) = p_{t} + p_{t + m} x^{m} + \dots + p_{t + n m} x^{n m} + \dots

$D_{m,t}p(x) = p_t + p_{t+m}x^m + \cdots + p_{t + nm}x^{nm} + \cdots$

para . A série de potências das funções consiste em todos os termos da série de começando com : isso às vezes é chamado de dizimação de . Atualmente, as pesquisas do Google não apresentam muitas informações úteis sobre dizimações. Portanto, para ser completo, aqui está uma derivação de uma fórmula. $t=0, 1, \ldots, m-1$ $x^t D_{m,t}p$ $m^\text{th}$ $p$ $t^\text{th}$ $p$

Vamos ser qualquer primitiva raiz da unidade; por exemplo, considere . Segue-se de e que $\omega$ $m^\text{th}$ $\omega = \exp(2 i \pi / m)$ $\omega^m=1$ $\sum_{j=0}^{m-1}\omega^j = 0$

x^{t} D_{m, t} p (x) = \frac{1}{m} \sum_{j = 0}^{m - 1} ω^{t j} p (x / ω^{j}) .

$x^t D_{m,t}p(x) = \frac{1}{m}\sum_{j=0}^{m-1} \omega^{t j} p(x/\omega^j).$

Para ver isso, observe que o operador é linear, portanto basta verificar a fórmula com base . A aplicação do lado direito a fornece $x^t D_{m,t}$ $\{1, x, x^2, \ldots, x^n, \ldots \}$ $x^n$

x^{t} D_{m, t} [x^{n}] = \frac{1}{m} \sum_{j = 0}^{m - 1} ω^{t j} x^{n} ω^{- n j} = \frac{x^{n}}{m} \sum_{j = 0}^{m - 1} ω^{(t - n) j .}

$x^t D_{m,t}[x^n] = \frac{1}{m}\sum_{j=0}^{m-1} \omega^{t j} x^n \omega^{-nj}= \frac{x^n}{m}\sum_{j=0}^{m-1} \omega^{(t-n) j.}$

Quando e diferem por um múltiplo de , cada termo na soma é igual a e obtemos . Caso contrário, os termos alternam entre potências de e somam zero. Onde este operador preserva todas as potências de congruente com modulo e mata todos os outros: é precisamente a projecção desejada. $t$ $n$ $m$ $1$ $x^n$ $\omega^{t-n}$ $x$ $t$ $m$

Uma fórmula para segue prontamente, alterando a ordem da soma e reconhecendo uma das somas como geométrica, escrevendo-a de forma fechada: $q$

\begin{aligned} q (x) & = \sum_{t = 0}^{m - 1} (D_{m, t} [p]) (x) \\ = \sum_{t = 0}^{m - 1} x^{- t} \frac{1}{m} \sum_{j = 0}^{m - 1} ω^{t j} p (ω^{- j} x) \\ = \frac{1}{m} \sum_{j = 0}^{m - 1} p (ω^{- j} x) \sum_{t = 0}^{m - 1} {(ω^{j} / x)}^{t} \\ = \frac{x (1 - x^{- m})}{m} \sum_{j = 0}^{m - 1} \frac{p (ω^{- j} x)}{x - ω^{j}} . \end{aligned}

$\eqalign{ q(x) &= \sum_{t=0}^{m-1} (D_{m,t}[p])(x) \\ &= \sum_{t=0}^{m-1} x^{-t} \frac{1}{m} \sum_{j=0}^{m-1} \omega^{t j} p(\omega^{-j}x ) \\ &= \frac{1}{m} \sum_{j=0}^{m-1} p(\omega^{-j}x) \sum_{t=0}^{m-1} \left(\omega^j/x\right)^t \\ &= \frac{x(1-x^{-m})}{m} \sum_{j=0}^{m-1} \frac{p(\omega^{-j}x)}{x-\omega^j}. }$

Por exemplo, o pgf de uma distribuição Poisson do parâmetro é . Com , e o pgf de será $\lambda$ $p(x) = \exp(\lambda(x-1))$ $m=2$ $\omega=-1$ $2Y$

\begin{aligned} q (x) & = \frac{x (1 - x^{- 2})}{2} \sum_{j = 0}^{2 - 1} \frac{p ((- 1)^{- j} x)}{x - (- 1)^{j}} \\ = \frac{x - 1 / x}{2} (\frac{\exp (λ (x - 1))}{x - 1} + \frac{\exp (λ (- x - 1))}{x + 1}) \\ = \exp (- λ) (\frac{\sinh (λ x)}{x} + \cosh (λ x)) . \end{aligned}

$\eqalign{ q(x) &= \frac{x(1-x^{-2})}{2} \sum_{j=0}^{2-1} \frac{p((-1)^{-j}x)}{x-(-1)^j} \\ &= \frac{x-1/x}{2} \left(\frac{\exp(\lambda(x-1))}{x-1} + \frac{\exp(\lambda(-x-1))}{x+1}\right) \\ &= \exp(-\lambda) \left(\frac{\sinh (\lambda x)}{x}+\cosh (\lambda x)\right). }$

Um uso dessa abordagem é calcular momentos de e . O valor da derivada do pgf avaliado em é o momento fatorial . O momento é uma combinação linear dos primeiros momentos fatoriais. Usando essas observações, descobrimos, por exemplo, que para um Poisson distribuído , sua média (que é o primeiro momento fatorial) é igual a , a média de é igual a , e a média de é igual a $X$ $mY$ $k^\text{th}$ $x=1$ $k^\text{th}$ $k^\text{th}$ $k$ $X$ $\lambda$ $2\lfloor(X/2)\rfloor$ $\lambda- \frac{1}{2} + \frac{1}{2} e^{-2\lambda}$ $3\lfloor(X/3)\rfloor$ $\lambda -1+e^{-3 \lambda /2} \left(\frac{\sin \left(\frac{\sqrt{3} \lambda }{2}\right)}{\sqrt{3}}+\cos \left(\frac{\sqrt{3} \lambda}{2}\right)\right)$ :

Significa

As médias para são mostradas em azul, vermelho e amarelo, respectivamente, como funções de : assintoticamente, a média cai comparação com a média original de Poisson. $m=1,2,3$ $\lambda$ $(m-1)/2$

Fórmulas semelhantes para as variações podem ser obtidas. (Eles ficar confuso como sobe e assim são omitidos Uma coisa que definitivamente estabelecer é que quando. não múltiplo de é Poisson: ele não tem a igualdade característica da média e variância) Aqui é um gráfico das variações em função de para : $m$ $m \gt 1$ $Y$ $\lambda$ $m=1,2,3$

Variações

É interessante que, para valores maiores de as variações aumentem . Intuitivamente, isso se deve a dois fenômenos concorrentes: a função de piso está efetivamente impedindo grupos de valores que originalmente eram distintos; isso deve fazer com que a variação diminua. Ao mesmo tempo, como vimos, os meios também estão mudando (porque cada compartimento é representado por seu menor valor); isso deve fazer com que um termo igual ao quadrado da diferença de médias seja adicionado novamente. O aumento da variância para grande torna-se maior com valores maiores de . $\lambda$ $\lambda$ $m$

O comportamento da variância de com é surpreendentemente complexo. Vamos terminar com uma rápida simulação (in ) mostrando o que ele pode fazer. Os gráficos mostram a diferença entre a variância de e a variância de para Poisson distribuído com vários valores de variando de a . Em todos os casos, as parcelas parecem ter atingido seus valores assintóticos à direita. $mY$ $m$ R $m\lfloor X/m \rfloor$ $X$ $X$ $\lambda$ $1$ $5000$

set.seed(17)
par(mfrow=c(3,4))
temp <- sapply(c(1,2,5,10,20,50,100,200,500,1000,2000,5000), function(lambda) {
  x <- rpois(20000, lambda)
  v <- sapply(1:floor(lambda + 4*sqrt(lambda)), 
              function(m) var(floor(x/m)*m) - var(x))
  plot(v, type="l", xlab="", ylab="Increased variance", 
       main=toString(lambda), cex.main=.85, col="Blue", lwd=2)
})

Parcelas

whuber
fonte

1

Esta é uma ótima resposta! Ele provavelmente vai me levar algum tempo para digerir :)

Lubo Antonov

1

e foi por isso que eu disse: "Usar a função de piso ... afeta a variação um pouco, embora de maneira mais complicada".

Henry

1

+1 Obrigado pela resposta detalhada. Certamente, existem maneiras complicadas pelas quais a função de piso afeta a variação.

precisa saber é o seguinte

1

+1 para simulação em R com código --- este é um exemplo muito bom de uso sapply()para simulação. Obrigado.

Assad Ebrahim

1

@ Roberto Obrigado. No entanto, a distinção entre " " e " ", sendo puramente uma questão de notação, é absolutamente trivial e sem importância matemática ou estatística.

x

$x$

s

$s$

whuber

12

Como Michael Chernick diz, se as variáveis aleatórias individuais forem independentes, a soma será Poisson com o parâmetro (média e variância) que você pode chamar de . $\sum_{i=1}^{n} \lambda_i$ $\lambda$

Dividir por reduz a média para variância portanto a variação será menor que a distribuição equivalente de Poisson. Como Michael diz, nem todos os valores serão inteiros. $n$ $\lambda / n$ $\lambda / n^2$

O uso da função floor reduz ligeiramente a média em cerca de e afeta a variação um pouco demais, embora de uma maneira mais complicada. Embora você tenha valores inteiros, a variação ainda será substancialmente menor que a média e, portanto, você terá uma distribuição mais estreita que o Poisson. $\frac12 -\frac{1}{2n}$

Henry
fonte

graças, não um resultado que eu posso usar, mas pelo menos eu sei agora :)

Lubo Antonov

Se as lambdas não são todas iguais, o resultado não deveria ser mais um binômio negativo do que um Poisson (ignorando a parte não inteira no momento)? O que estou perdendo aqui?

gung - Restabelece Monica

2

@ gung: Você está perdendo o ponto em que o indivíduo afeta apenas a distribuição através de sua soma e quantas existem. Não importa quais valores específicos eles adotam: fornecerá o mesmo resultado que .

λ_{i}

$\lambda_i$

λ_{1} = 1, λ_{2} = 2, λ_{3} = 9

$\lambda_1=1, \lambda_2=2, \lambda_3=9$

λ_{1} = 4, λ_{2} = 4, λ_{3} = 4

$\lambda_1=4, \lambda_2=4, \lambda_3=4$

Henry

10

A função de massa probabilística da média de variáveis aleatórias independentes de Poisson pode ser anotada explicitamente, embora a resposta possa não ajudá-lo muito. Como Michael Chernick observou nos comentários de sua própria resposta, a soma das variáveis aleatórias independentes de Poisson com os respectivos parâmetros é uma variável aleatória de Poisson com o parâmetro . Portanto, Assim, é uma variável aleatória que assume o valor com probabilidade $n$ $\sum_i X_i$ $X_i$ $\lambda_i$ $\lambda = \sum_i \lambda_i$

P {\sum_{Eu = 1}^{n} X_{Eu} = k} = \exp (- λ) \frac{λ^{k}}{k!}, k = 0 0, 1, 2, ...,

$P\left\{ \sum_{i=1}^n X_i= k\right\} = \exp(-\lambda)\frac{\lambda^k}{k!}, ~~ k = 0, 1, 2, \ldots,$

\hat{Y} = n^{- 1} \sum_{i = 1}^{n} X_{i}

$\hat{Y} = n^{-1} \sum_{i=1}^n X_i$

k / n

$k/n$

\exp (- λ) \frac{λ^{k}}{k!}

$\exp(-\lambda)\frac{\lambda^k}{k!}$ . Observe que não é uma variável aleatória com valor inteiro (embora assuma valores racionais com espaçamento uniforme). Segue-se facilmente que é uma variável aleatória com valor inteiro assumindo o valor com probabilidade isto não é

\hat{Y}

$\hat{Y}$

Y = ⌊ \hat{Y} ⌋

$Y = \lfloor \hat{Y} \rfloor$

m

$m$

P {Y = m} = P {⌊ \frac{1}{n} \sum_{Eu = 1}^{n} X_{Eu} ⌋ = m} = \exp (- λ) \sum_{Eu = 0 0}^{n - 1} \frac{λ^{m n + Eu}}{(m n + Eu)!}, m = 0 0, 1, 2, ...,

$P\{Y = m\} = P\left\{\left\lfloor \frac{1}{n}\sum_{i=1}^n X_i \right\rfloor = m\right\} = \exp(-\lambda)\sum_{i=0}^{n-1}\frac{\lambda^{mn+i}}{(mn+i)!}, ~~ m = 0, 1, 2, \ldots,$ a função de massa de probabilidade de uma variável aleatória de Poisson. Fórmulas para a variância média e pode ser escrita usando esta função massa de probabilidade, mas eles não, obviamente, levar a bom simples respostas em termos de e . Valores aproximados podem ser obtidos conforme apontado por Henry.

λ

$\lambda$

n

$n$

Dilip Sarwate
fonte

1 Não são fórmulas fechadas para os momentos de , no entanto.

Y

$Y$

whuber

Obrigado pela formulação rigorosa! Alguma chance de você gostar das fórmulas de média e variação?

Lubo Antonov

2

Talvez o @whuber publique um link (ou uma citação de um livro ou artigo de uma revista) onde as fórmulas em formato fechado para os momentos possam ser encontradas ou escreva uma resposta fornecendo as próprias fórmulas, com ou sem uma derivação detalhada.

usar o seguinte código

@Dilip Minha reivindicação sobre fórmulas fechadas não foi baseada em nada publicado, por isso postei uma resposta separada indicando o que eu tinha em mente e como ela poderia ser usada para entender essa situação.

whuber

3

Y não será Poisson. Observe que as variáveis aleatórias Poisson assumem valores inteiros não negativos. Depois de dividir por uma constante, você cria uma variável aleatória que pode ter valores não inteiros. Ainda terá a forma do Poisson. Apenas as probabilidades discretas podem ocorrer em pontos não inteiros.

Michael R. Chernick
fonte

Y

$Y$

@ lucas1024 Acho que não, mas não tenho certeza.

Michael R. Chernick

\sum X_{i}

$\sum X_i$

n^{- 1}

$n^{-1}$

@JDav A soma é Poisson com o parâmetro rate igual à soma dos parâmetros individuais da taxa. Mas o OP é escalado em 1 / n e, em seguida, deseja truncar o número inteiro logo abaixo de Y. Não sei exatamente o que isso faz com a distribuição.

Michael R. Chernick

Meu comentário anterior assumiu independência.

Michael R. Chernick

Qual é a distribuição da média arredondada das variáveis ​​aleatórias de Poisson?

Respostas:

Qual é a distribuição da média arredondada das variáveis aleatórias de Poisson?