Por que a média do valor mais alto de 100 extrai de uma distribuição normal diferente do 98º percentil da distribuição normal?

8

Por que a média do valor mais alto de 100 extrai de uma distribuição normal diferente do percentil 98% da distribuição normal? Parece que, por definição, eles devem ser os mesmos. Mas...

Código em R:

NSIM <- 10000
x <- rep(NA,NSIM)
for (i in 1:NSIM)
{
    x[i] <- max(rnorm(100))
}
qnorm(.98)
qnorm(.99)
mean(x)
median(x)
hist(x)

Eu imagino que estou entendendo mal algo sobre qual deve ser o máximo de 100 da distribuição normal. Como é demonstrado por uma distribuição inesperadamente assimétrica dos valores máximos.

russellpierce
fonte

Respostas:

10

O máximo não tem uma distribuição normal. Seu cdf é onde é o cdf normal padrão. Em geral, os momentos dessa distribuição são difíceis de obter analiticamente. Há um artigo antigo sobre isso por Tippett ( Biometrika , 1925) . Φ ( x )Φ(x)100Φ(x)

Rob Hyndman
fonte
Existe uma maneira de expressar em linguagem simples qual é a diferença entre um dado percentil e o máximo de N valores? De uma perspectiva leiga, é difícil perceber por que não se espera que um ponto de dados proveniente de um determinado percentil (Y) seja (em média) o mesmo que o melhor marcador de um grupo de 100 / Y. Por exemplo, se eu descobrisse que suas respostas estavam classificadas no percentil 90, esperaria que sua resposta fosse normalmente a principal entre qualquer grupo de 10 respostas selecionadas aleatoriamente.
russellpierce
4
@drknexus Sua intuição está correta. Entretanto, extremos (e quase extremos) de distribuições de amostragem são um tanto especiais: seus valores são limitados pela massa de dados de um lado, enquanto - para distribuições-mãe com caudas infinitas - não há nenhuma restrição em suas valores do outro lado. Assim, por exemplo, a distribuição de um máximo (de uma distribuição sem limite superior) é inclinada positivamente. Isso aumenta sua expectativa em relação ao percentil correspondente.
whuber
2

Perguntei por que havia uma diferença entre a média do máximo de 100 empates de uma distribuição normal aleatória e o 98º percentil da distribuição normal. A resposta que recebi de Rob Hyndman foi em grande parte aceitável, mas tecnicamente muito densa para ser aceita sem revisão. Fiquei me perguntando se era possível fornecer uma resposta que explique em linguagem simples intuitivamente compreensível por que esses dois valores não são iguais.

Em última análise, minha resposta pode ser insatisfatoriamente circular; mas conceitualmente, a razão max (rnorm (100)) tende a ser maior que qnorm (.98) é, em suma, porque, em média, a maior das 100 pontuações aleatórias distribuídas normalmente excederá ocasionalmente o valor esperado. No entanto, essa distorção não é simétrica, uma vez que quando pontuações baixas são sorteadas, é improvável que elas acabem sendo as mais altas das 100 pontuações. Cada sorteio independente é uma nova chance de exceder o valor esperado ou de ser ignorado porque o valor obtido não é o máximo dos 100 valores sorteados. Para uma demonstração visual comparar o histograma do máximo de 20 valores com o histograma do máximo de 100 valores, a diferença na inclinação, especialmente nas caudas, é acentuada.

Cheguei a essa resposta indiretamente enquanto trabalhava com um problema / pergunta relacionada que eu havia perguntado nos comentários. Especificamente, se eu descobrisse que as pontuações de alguém estavam classificadas no percentil 95, eu esperaria que, em média, se as colocasse em uma sala com 99 outros participantes, sua classificação seria em média 95. Isso acaba sendo mais ou menos o caso (código R) ...

for (i in 1:NSIM)
{
    rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)

Como uma extensão dessa lógica, eu também esperava que, se eu pegasse 100 pessoas em uma sala e selecionasse a pessoa com a 95ª pontuação mais alta, pegasse outras 99 pessoas e fizesse o mesmo teste, que, em média, a pessoa selecionada faria. ocupar o 95º lugar no novo grupo. Mas esse não é o caso (código R) ...

for (i in 1:NSIM)
{
    testtakers <- rnorm(100)
    testtakers <- testtakers[order(testtakers)]
    testtakers <- testtakers[order(testtakers)]
    ranked95 <- testtakers[95]
    rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)

O que diferencia o primeiro caso do segundo é que, no primeiro caso, a pontuação do indivíduo os coloca exatamente no percentil 95. No segundo caso, sua pontuação pode ser um pouco maior ou menor que o percentil 95 verdadeiro. Como eles não podem ter uma classificação maior que 100, os grupos que produzem uma pontuação na classificação 95 que está realmente no percentil 99 ou superior não podem compensar (em termos de classificação média) aqueles casos em que a pontuação na classificação 95 é muito menor que a verdadeira 90 percentil. Se você observar os histogramas para os dois vetores de classificação fornecidos nesta resposta, é fácil ver que há uma restrição de alcance nas extremidades superiores que é uma conseqüência desse processo que descrevi.

russellpierce
fonte
2

Há duas questões: uma é a assimetria na distribuição do valor superior que você identificou; a outra é que você não deve olhar para o 98º percentil.

Em vez da média do valor mais alto, considere a mediana. Isso é mais fácil, pois é uma estatística de pedidos. A probabilidade de que todos os 100 valores sejam menores que o quantil é portanto, o quantil mediano para o máximo será quando , ou seja, , mais do que . Mas, devido à assimetria, você esperaria que a média fosse ainda mais alta.q 100 q 100 = 1qq100 q=1q100=120,98q=121/1000.993090.98

Como uma ilustração em R

require(matrixStats)
NSIM <- 100001
cases <- 100
set.seed(1)
simmat <- matrix(rnorm(cases*NSIM), ncol=cases)
tops <- rowMaxs(simmat)
c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))

que dá

> c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
[1] 2.508940 2.464794 2.462038
> c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))
[1] 0.9939453 0.9931454 0.9930925
Henry
fonte
1

NX1,...,XNY1

Ff

P(Y1<x)=P(max(X1,...,XN)<x)=P(X1<x,...,XN<x)=P(X1<x)P(XN<x)=P(X<x)100,
FY1(x)=FX(x)100,
Ff

Rob usa a notação padrão de que é definido como para um padrão normal --- ou seja, é o CDF normal padrão.P ( X < x ) Φ ( x )Φ(x)P(X<x) Φ(x)

A função densidade de probabilidade (PDF) da estatística de primeira ordem é apenas a derivada do CDF em relação a : o CDF em elevado a 99 (ou seja, ) vezes o PDF 100 (ou seja, ).f Y 1 ( x ) = 100 F X ( x ) 99 f X ( x ) x N - 1 x NX

fY1(x)=100FX(x)99fX(x)
xN1xN
Charlie
fonte
Parece haver algo errado com sua equação final (eu corrigi a composição, mas a traduzi exatamente como você a tinha antes). O que é ? Além disso, o pdf de não é equivalente a . De fato, se tem uma distribuição normal (ou qualquer distribuição contínua), então qualquer , de modo que não pode ser o pdf. X P ( X = x ) X P ( X = x ) = 0 xX1XP(X=x)XP(X=x)=0x
Macro
@ Macro, é o primeiro sorteio de sorteios independentes; é a estatística de primeira ordem (você pode preferir escrever ). Tornei a notação mais precisa em resposta aos seus outros comentários. N Y 1 X ( 1 )X1NY1X(1)
Charlie