Considere uma amostra de n rv normais normais independentes. Gostaria de identificar uma maneira sistemática de calcular a probabilidade de ter a soma de um subconjunto deles maior que a soma do restante dos RVs. Um exemplo de caso: População de peixe. Média: 10 kg, stdv: 3 kg. Eu pesco cinco peixes (n = 5). Qual é a probabilidade de dois peixes pesarem mais do que o resto dos três peixes? As etapas a serem seguidas são calcular o prob para cada combinação de peixes e, em seguida, usar a fórmula de exclusão de inclusão para sua união. Existe algo mais inteligente? Nota: se quatro peixes foram considerados, a probabilidade de ter dois deles mais pesados que os outros dois deve ser um. Como isso pode ser calculado imediatamente? Obrigado pelas respostas.
7
Respostas:
Seu exemplo sugere que não são apenas osn variáveis X1,X2,…,Xn independentes, eles também têm a mesma distribuição normal. Deixe seus parâmetros seremμ (a média) e σ2 (a variação) e suponha que o subconjunto consista em k dessas variáveis. Podemos também indexar as variáveis para queX1,…,Xk são este subconjunto.
A pergunta pede calcular a chance de que a soma do primeirok variáveis são iguais ou excedem a soma do resto:
Onde
e
Portanto, tem uma distribuição normal padrão com a função de distribuição onde a resposta éZ=Y−(n−2k)μσn−−√ Φ,
Na questão, e onden=5,k=2,μ=10, σ=3,
Generalização
Pouco precisa mudar nessa análise, mesmo quando os têm distribuições normais diferentes ou estão correlacionados: você só precisa assumir que eles têm uma distribuição Normal variável para garantir que sua combinação linear ainda tenha uma distribuição Normal. Os cálculos são realizados da mesma maneira e resultam em uma fórmula semelhante.Xi n
Verifica
Um comentarista sugeriu resolver isso com simulação. Embora isso não seja uma solução, é uma maneira decente de verificar uma solução rapidamente. Assim,
R
podemos estabelecer as entradas da simulação de alguma maneira arbitrária, comoe simule esses dados e compare as somas com essas duas linhas:
O pós-processamento consiste em encontrar a fração de conjuntos de dados simulados em que uma soma excede a outra e compará-la à solução teórica:
A saída neste caso é
O acordo está próximo e o pequeno escore z absoluto nos permite atribuir a discrepância a flutuações aleatórias, em vez de qualquer erro na derivação teórica.
fonte