Por que a média do valor mais alto de 100 extrai de uma distribuição normal diferente do percentil 98% da distribuição normal? Parece que, por definição, eles devem ser os mesmos. Mas...
Código em R:
NSIM <- 10000
x <- rep(NA,NSIM)
for (i in 1:NSIM)
{
x[i] <- max(rnorm(100))
}
qnorm(.98)
qnorm(.99)
mean(x)
median(x)
hist(x)
Eu imagino que estou entendendo mal algo sobre qual deve ser o máximo de 100 da distribuição normal. Como é demonstrado por uma distribuição inesperadamente assimétrica dos valores máximos.
r
distributions
maximum
russellpierce
fonte
fonte
Perguntei por que havia uma diferença entre a média do máximo de 100 empates de uma distribuição normal aleatória e o 98º percentil da distribuição normal. A resposta que recebi de Rob Hyndman foi em grande parte aceitável, mas tecnicamente muito densa para ser aceita sem revisão. Fiquei me perguntando se era possível fornecer uma resposta que explique em linguagem simples intuitivamente compreensível por que esses dois valores não são iguais.
Em última análise, minha resposta pode ser insatisfatoriamente circular; mas conceitualmente, a razão max (rnorm (100)) tende a ser maior que qnorm (.98) é, em suma, porque, em média, a maior das 100 pontuações aleatórias distribuídas normalmente excederá ocasionalmente o valor esperado. No entanto, essa distorção não é simétrica, uma vez que quando pontuações baixas são sorteadas, é improvável que elas acabem sendo as mais altas das 100 pontuações. Cada sorteio independente é uma nova chance de exceder o valor esperado ou de ser ignorado porque o valor obtido não é o máximo dos 100 valores sorteados. Para uma demonstração visual comparar o histograma do máximo de 20 valores com o histograma do máximo de 100 valores, a diferença na inclinação, especialmente nas caudas, é acentuada.
Cheguei a essa resposta indiretamente enquanto trabalhava com um problema / pergunta relacionada que eu havia perguntado nos comentários. Especificamente, se eu descobrisse que as pontuações de alguém estavam classificadas no percentil 95, eu esperaria que, em média, se as colocasse em uma sala com 99 outros participantes, sua classificação seria em média 95. Isso acaba sendo mais ou menos o caso (código R) ...
Como uma extensão dessa lógica, eu também esperava que, se eu pegasse 100 pessoas em uma sala e selecionasse a pessoa com a 95ª pontuação mais alta, pegasse outras 99 pessoas e fizesse o mesmo teste, que, em média, a pessoa selecionada faria. ocupar o 95º lugar no novo grupo. Mas esse não é o caso (código R) ...
O que diferencia o primeiro caso do segundo é que, no primeiro caso, a pontuação do indivíduo os coloca exatamente no percentil 95. No segundo caso, sua pontuação pode ser um pouco maior ou menor que o percentil 95 verdadeiro. Como eles não podem ter uma classificação maior que 100, os grupos que produzem uma pontuação na classificação 95 que está realmente no percentil 99 ou superior não podem compensar (em termos de classificação média) aqueles casos em que a pontuação na classificação 95 é muito menor que a verdadeira 90 percentil. Se você observar os histogramas para os dois vetores de classificação fornecidos nesta resposta, é fácil ver que há uma restrição de alcance nas extremidades superiores que é uma conseqüência desse processo que descrevi.
fonte
Há duas questões: uma é a assimetria na distribuição do valor superior que você identificou; a outra é que você não deve olhar para o 98º percentil.
Em vez da média do valor mais alto, considere a mediana. Isso é mais fácil, pois é uma estatística de pedidos. A probabilidade de que todos os 100 valores sejam menores que o quantil é portanto, o quantil mediano para o máximo será quando , ou seja, , mais do que . Mas, devido à assimetria, você esperaria que a média fosse ainda mais alta.q 100 q 100 = 1q q100 q=1q100=12 0,98q=121/100≈0.99309 0.98
Como uma ilustração em R
que dá
fonte
Ff
Rob usa a notação padrão de que é definido como para um padrão normal --- ou seja, é o CDF normal padrão.P ( X < x ) Φ ( x )Φ(x) P(X<x) Φ(x)
A função densidade de probabilidade (PDF) da estatística de primeira ordem é apenas a derivada do CDF em relação a : o CDF em elevado a 99 (ou seja, ) vezes o PDF 100 (ou seja, ).f Y 1 ( x ) = 100 ⋅ F X ( x ) 99 f X ( x ) x N - 1 x NX
fonte