Mesma Média, Variação Diferente

14

Suponha que você tenha oito corredores correndo uma corrida; a distribuição de seus tempos de execução individuais é normal e cada um tem média de 11 segundos, digamos. O desvio padrão do corredor um é o menor, dois o segundo menor, o terceiro menor, etc., e oito o maior. Duas perguntas estão me confundindo: (1) Qual é a probabilidade de o primeiro bater o último e (2) quem tem maior probabilidade de vencer a corrida?

Minhas respostas são 1/2 e 8 , respectivamente. Uma vez que partilham a mesma média, a probabilidade de que x¯1x¯8<0 é apenas 1/2 , não? Como demonstrar rigorosamente a segunda parte e calcular uma probabilidade exata de vitória? Desde já, obrigado.

George Tedder
fonte
1
@ Silverfish Ao comparar primeiro (modelado como a variável aleatória ) com o último ( X n , assumido independente de X 1 ), precisamos considerar apenas Z = X 1 - X n . Isso tem uma distribuição contínua simétrica com média zero. A chance de que as primeiras batidas última é a chance de que Z < 0 , que (por simetria e continuidade) é igual a 1 / 2 como reivindicado. Embora o último tenha uma chance maior de vencer a corrida, não há paradoxo: na maioria das vezes, quando os primeiros batimentos duram, alguém na verdade vence a corrida.X1XnX1Z=X1XnZ<01/2
whuber
1
@whuber Obrigado, eu consegui entender o que eu quis dizer - irá remover para evitar confusão. A figura 1/2 está correta, mas a resposta para comparar seus tempos médios está incorreta e parece suscitar confusão com os meios da população. Enquanto você escreve, deve ser a diferença no X i . xi¯Xi
Silverfish
@ Silver Isso destaca o perigo de assumir que sempre sabemos o que a notação de alguém significa, apenas porque parece familiar. Eu encobri essa questão (com linhas sobrepostas aparecendo em " " e " x 8 ") porque o significado pretendido era claro o suficiente e implicava que nenhum deles poderia representar o significado de qualquer coisa: nesse contexto, eles devem representar a variáveis ​​aleatórias em si (que escrevi X 1 e X n ). x1x8X1Xn
whuber

Respostas:

15

Embora uma probabilidade exata não possa ser calculada (exceto em circunstâncias especiais com ), ela pode ser calculada numericamente rapidamente com alta precisão. Apesar dessa limitação, pode-se provar rigorosamente que o corredor com o maior desvio padrão tem a maior chance de vencer. A figura mostra a situação e mostra por que esse resultado é intuitivamente óbvio:n2

Figure

As densidades de probabilidade para os tempos de cinco corredores são mostradas. Todos são contínuos e simétricos sobre uma média comum . (As densidades beta em escala foram usadas para garantir que todos os horários sejam positivos.) Uma densidade, desenhada em azul mais escuro, tem uma propagação muito maior. A parte visível em sua cauda esquerda representa os tempos que nenhum outro corredor normalmente consegue igualar. Como a cauda esquerda, com sua área relativamente grande, representa uma probabilidade considerável, o corredor com essa densidade tem maior chance de ganhar a corrida. (Eles também têm a maior chance de chegar em último!)μ

Esses resultados são comprovados para mais do que apenas distribuições normais: os métodos apresentados aqui se aplicam igualmente bem a distribuições simétricas e contínuas. (Isso será de interesse para quem se opuser a usar distribuições normais para modelar os tempos de execução.) Quando essas suposições são violadas, é possível que o corredor com maior desvio padrão possa não ter a maior chance de ganhar (deixo a construção de contra-exemplos em leitores interessados), mas ainda podemos provar, sob suposições mais brandas, que o corredor com maior SD terá a melhor chance de ganhar, desde que o SD seja suficientemente grande.

A figura também sugere que os mesmos resultados poderiam ser obtidos considerando-se análogos unilaterais de desvio padrão (a chamada "semivariância"), que medem a dispersão de uma distribuição apenas para um lado. Um corredor com grande dispersão para a esquerda (para melhores tempos) deve ter uma chance maior de vencer, independentemente do que acontecer no restante da distribuição. Essas considerações nos ajudam a entender como a propriedade de ser a melhor (em um grupo) difere de outras propriedades, como médias.


Seja variáveis ​​aleatórias representando os tempos dos corredores. A questão assume que eles são independentes e normalmente distribuídos com média comum μ . (Embora este seja literalmente um modelo impossível, porque apresenta probabilidades positivas para tempos negativos, ainda pode ser uma aproximação razoável da realidade, desde que os desvios padrão sejam substancialmente menores que μ .)X1,,Xnμμ

A fim de realizar o seguinte argumento, manter a suposição de independência, mas caso contrário assumir as distribuições do são dadas por F i , e que essas leis de distribuição pode ser qualquer coisa. Por conveniência, assuma também que a distribuição F n é contínua com a densidade f n . Posteriormente, conforme necessário, podemos aplicar suposições adicionais, desde que incluam o caso de distribuições normais.XiFiFnfn

Para qualquer e infinitesimal d y , a chance de que o último corredor tem um tempo no intervalo ( y - d y , y ] e é o corredor mais rápido é obtido multiplicando todas as probabilidades relevantes (porque todos os momentos são independentes):ydy(ydy,y]

Pr(Xn(ydy,y],X1>y,,Xn1>y)=fn(y)dy(1F1(y))(1Fn1(y)).

A integração de todas essas possibilidades mutuamente exclusivas gera

Pr(Xnmin(X1,X2,,Xn1))=Rfn(y)(1F1(y))(1Fn1(y))dy.

Para distribuições normais, essa integral não pode ser avaliada em formato fechado quando : precisa de avaliação numérica.n>2

Figure

Esta figura representa o integrando de cada um dos cinco corredores com desvios padrão na proporção 1: 2: 3: 4: 5. Quanto maior o SD, mais a função é deslocada para a esquerda - e maior sua área se torna. As áreas são aproximadamente 8: 14: 21: 26: 31%. Em particular, o corredor com o maior DP tem 31% de chance de ganhar.


Embora não seja possível encontrar um formulário fechado, ainda podemos tirar conclusões sólidas e provar que é mais provável que o corredor com o maior SD ganhe. Precisamos estudar o que acontece quando o desvio padrão de uma das distribuições, dizem , mudanças. Quando a variável aleatória X n é rescaled por σ > 0 em torno da sua média, o seu SD é multiplicado por σ e f n ( Y ) d y vai alterar a f n ( y / σ ) d y / σFnXnσ>0σfn(y)dyfn(y/σ)dy/σ. Fazer a alteração da variável na integral fornece uma expressão para a chance do corredor n ganhar, em função de σ :y=xσnσ

ϕ(σ)=Rfn(y)(1F1(yσ))(1Fn1(yσ))dy.

Suponha agora que as medianas de todas as distribuições sejam iguais e que todas as distribuições sejam simétricas e contínuas, com densidades f i . (Esse certamente é o caso nas condições da pergunta, porque uma mediana normal é sua média.) Por uma simples mudança (local) da variável, podemos assumir que essa mediana comum é 0 ; a simetria significa f n ( y ) = f n ( - y ) e 1 - F j ( - y ) = F j ( ynfi0fn(y)=fn(y) para todos os y . Essas relações nos permitem combinar o integral over ( - , 0 ] com o integral over ( 0 , ) para dar1Fj(y)=Fj(y)y(,0](0,)

ϕ(σ)=0fn(y)(j=1n1(1Fj(yσ))+j=1n1Fj(yσ))dy.

A função é diferenciável. Sua derivada, obtida pela diferenciação do integrando, é uma soma de integrais em que cada termo tem a formaϕ

yfn(y)fi(yσ)(jin1Fj(yσ)jin1(1Fj(yσ)))

para .i=1,2,,n1

As suposições que fizemos sobre as distribuições foram projetadas para garantir que para x 0 . Assim, como x = y σ 0 , cada termo no produto esquerdo excede o termo correspondente no produto certo, implicando que a diferença de produtos não é negativa. Os outros fatores y f n ( y ) f i ( y σ ) são claramente não negativos porque as densidades não podem ser negativas eFj(x)1Fj(x)x0x=yσ0yfn(y)fi(yσ) . Podemos concluir que ϕ ( σ ) 0 para σ 0 , provando quea chance de o jogador n ganhar aumenta com o desvio padrão de X n .y0ϕ(σ)0σ0nXn

nXnXi1/nnnn

whuber
fonte
@Phonon Está correto. (Mas não confunda as distribuições com estimativas derivadas de amostras. A distribuição é um modelo matemático, não um conjunto de dados.) Aumentar o DP por um fator deλ, digamos, estende uniformemente o eixo horizontal. Como (pela Lei da Probabilidade Total) a função de densidade cobrirá uma área unitária, esse trecho deve ser compensado por um trecho do eixo vertical por1/λ, preservando assim todas as áreas. Assim, SDs menores correspondem a picos mais altos e SDs maiores a picos mais curtos.
whuber
Muito obrigado pela sua resposta, faz todo o sentido. Portanto, o conhecimento somente dos valores de pico nesse sentido é bastante importante.
Phonon