Soma de variáveis ​​aleatórias normais

7

Considere uma amostra de n rv normais normais independentes. Gostaria de identificar uma maneira sistemática de calcular a probabilidade de ter a soma de um subconjunto deles maior que a soma do restante dos RVs. Um exemplo de caso: População de peixe. Média: 10 kg, stdv: 3 kg. Eu pesco cinco peixes (n = 5). Qual é a probabilidade de dois peixes pesarem mais do que o resto dos três peixes? As etapas a serem seguidas são calcular o prob para cada combinação de peixes e, em seguida, usar a fórmula de exclusão de inclusão para sua união. Existe algo mais inteligente? Nota: se quatro peixes foram considerados, a probabilidade de ter dois deles mais pesados ​​que os outros dois deve ser um. Como isso pode ser calculado imediatamente? Obrigado pelas respostas.

Manos
fonte
11
Você certamente poderia fazer simulação.
Peter Flom
@ whuber - Você dá uma ótima resposta, assumindo que temos dois específicos em mente (ou escolhe dois aleatoriamente). Meu passe inicial na leitura pensou que estava perguntando se havia algum subconjunto de 2 tal que a soma fosse maior que o restante (como evidenciado pela alegação de que, se houvesse 4 peixes, a probabilidade seria 1); nesse caso, deseja examinar a distribuição dos dois maiores versus a distribuição do restante e precisaria mergulhar nas estatísticas de pedidos. A simulação sugere nessa situação a probabilidade é de aproximadamente 0,464.
Dason 11/04/19
11
@ Jason Obrigado por apontar isso: é uma interpretação muito plausível e que eu não tinha concebido. Também explica por que Peter estava sugerindo simulação, porque esse é um problema muito mais complicado. Acho que você está certo sobre as estatísticas de pedidos, porque podemos reformular o problema perguntando "qual é a chance de que a soma dask maior den valores excede a soma do nk menores? "Embora possamos escrever o valor como uma integral, em geral ele requer avaliação numérica e rapidamente se torna oneroso como ncresce.
whuber
11
@Manos - Se o 1º e o 3º somados fossem maiores que o 2º, 4º e 5º ... então o 1º e o 2º somados seriam maiores que o 3º, 4º e 5º e também atenderiam aos seus critérios. Portanto, em termos de verificar se algum subconjunto atende aos critérios, precisamos apenas verificar se o k superior se soma a algo maior que o nk inferior.
Dason 11/04/19
11
Eles poderiam. Mas, como whuber menciona, não é um problema fácil. A simulação proporcionaria um resultado muito mais fácil para qualquer situação específica.
Dason 11/04/19

Respostas:

7

Seu exemplo sugere que não são apenas os n variáveis X1,X2,,Xnindependentes, eles também têm a mesma distribuição normal. Deixe seus parâmetros seremμ (a média) e σ2 (a variação) e suponha que o subconjunto consista em kdessas variáveis. Podemos também indexar as variáveis ​​para queX1,,Xk são este subconjunto.

A pergunta pede calcular a chance de que a soma do primeiro k variáveis ​​são iguais ou excedem a soma do resto:

pn,k(μ,σ)=Pr(X1++XkXk+1++Xn)=Pr(Y0)

Onde

Y=(X1++Xk)+(Xk+1++Xn).

Y é uma combinação linear de variáveis ​​normais independentes e, portanto, tem uma distribuição normal - mas qual? As leis da expectativa e variação imediatamente nos dizem

E[Y]=kμ+(nk)μ=(n2k)μ

e

Var(Y)=kσ2+(nk)σ2=nσ2.

Portanto, tem uma distribuição normal padrão com a função de distribuição onde a resposta é

Z=Y(n2k)μσn
Φ,

pn,k(μ,σ)=Pr(Y0)=Pr(Z(n2k)μσn)=Φ((n2k)μσn).

Na questão, e onden=5,k=2,μ=10,σ=3,

p5,2(10,3)=Φ((52(2))10310)0.0680186.


Generalização

Pouco precisa mudar nessa análise, mesmo quando os têm distribuições normais diferentes ou estão correlacionados: você só precisa assumir que eles têm uma distribuição Normal variável para garantir que sua combinação linear ainda tenha uma distribuição Normal. Os cálculos são realizados da mesma maneira e resultam em uma fórmula semelhante.Xin


Verifica

Um comentarista sugeriu resolver isso com simulação. Embora isso não seja uma solução, é uma maneira decente de verificar uma solução rapidamente. Assim, Rpodemos estabelecer as entradas da simulação de alguma maneira arbitrária, como

n <- 5
k <- 2
mu <- 10
sigma <- 3
n.sim <- 1e6 # Simulation size
set.seed(17) # For reproducible results

e simule esses dados e compare as somas com essas duas linhas:

x <- matrix(rnorm(n*n.sim, mu, sigma), ncol=n)
p.hat <- mean(rowSums(x[, 1:k]) >= rowSums(x[, -(1:k)]))

O pós-processamento consiste em encontrar a fração de conjuntos de dados simulados em que uma soma excede a outra e compará-la à solução teórica:

se <- sqrt(p.hat * (1-p.hat) / n.sim)
p <- pnorm(-(n-2*k)*mu / (sigma * sqrt(n)))
signif(c(Simulation=p.hat, Theory=p, `Z-score`=(p.hat-p)/se), 3)

A saída neste caso é

Simulation     Theory    Z-score 
    0.0677     0.0680    -1.1900

O acordo está próximo e o pequeno escore z absoluto nos permite atribuir a discrepância a flutuações aleatórias, em vez de qualquer erro na derivação teórica.

whuber
fonte
Também podemos assumir, sem perda de generalidade, que ; intuitivamente, podemos calcular tudo em termos deσ=1μσ
Acccumulation
@ Accumulation Está correto e é uma boa maneira de prosseguir. De fato, esse fato decorre imediatamente da observação de que é possível definir arbitrariamente a unidade de medida para que sem alterar o problema. Achei conveniente não precisar explicar isso, porque não simplificou sensivelmente a análise. σ=1
whuber