Existem 99 percentis ou 100 percentis? E são grupos de números, linhas divisórias ou ponteiros para números individuais?
Suponho que a mesma pergunta se aplicaria a quartis ou a qualquer quantil.
Eu li que o índice de um número em um percentil específico (p), dados n itens, é i = (p / 100) * n
Isso sugere para mim que existem 100 percentis .. porque, supondo que você tenha 100 números (i = 1 a i = 100), cada um deles teria um índice (1 a 100).
Se você tivesse 200 números, haveria 100 percentis, mas cada um se referiria a um grupo de dois números. Ou 100 divisores, excluindo o divisor da extrema esquerda ou da extrema direita ', caso contrário, você obteria 101 divisores. Ou ponteiros para números individuais para que o primeiro percentil se refira ao segundo número (1/100) * 200 = 2 E o centésimo percentil se refira ao 200º número (100/100) * 200 = 200
Às vezes, ouvi falar de 99 percentis ..
O Google mostra o dicionário oxford que diz sobre percentil - "cada um dos 100 grupos iguais em que uma população pode ser dividida de acordo com a distribuição de valores de uma variável específica". e "cada um dos 99 valores intermediários de uma variável aleatória que divide uma distribuição de frequência em 100 desses grupos".
A Wikipedia diz que "o 20º percentil é o valor abaixo do qual 20% das observações podem ser encontradas". Mas na verdade significa "o valor abaixo ou igual ao qual 20% das observações podem ser encontradas" ou seja, "o valor pelo qual 20% das observações podem ser encontradas" % dos valores são <= para ele ". Se fosse apenas <e não <=, então, com esse raciocínio, o 100º percentil seria o valor abaixo do qual 100% dos valores podem ser encontrados. Ouvi isso como argumento de que não pode haver 100% de percentil, porque você não pode ter um número em que haja 100% dos números abaixo dele. Mas acho que talvez o argumento de que você não pode ter um percentil 100 esteja incorreto e se baseie em um erro que a definição de percentil envolve <= não <. (ou> = não>). Portanto, o centésimo percentil seria o número final e seria>
Respostas:
Ambos os sentidos de percentil , quartil e assim por diante são amplamente utilizados. É mais fácil ilustrar a diferença com quartis:
o sentido “divisor” - existem 3 quartis, que são os valores que dividem a distribuição (ou amostra) em 4 partes iguais:
(Às vezes, isso é usado com os valores max e min incluídos, portanto, existem 5 quartis numerados de 0 a 4; observe que isso não entra em conflito com a numeração acima, apenas a estende.)
o sentido “bin”: existem 4 quartis, os subconjuntos nos quais esses 3 valores dividem a distribuição (ou amostra)
Nenhum desses usos pode ser razoavelmente chamado de “errado”: ambos são usados por muitos praticantes experientes e aparecem em muitas fontes autorizadas (livros didáticos, dicionários técnicos e similares).
Com os quartis, o sentido usado geralmente é claro no contexto: falar de um valor no terceiro quartil pode ser apenas o sentido "bin", enquanto falar de todos os valores abaixo do terceiro quartil provavelmente significa o sentido "divisor". Com os percentis, a distinção costuma não ser clara, mas também não é tão significativa para a maioria dos propósitos, uma vez que 1% de uma distribuição é tão pequena - uma faixa estreita é aproximadamente uma linha. Falar em todos os que estão acima do percentil 80 pode significar os 20% ou os 19% melhores, mas em um contexto informal que não é uma grande diferença e, em trabalhos rigorosos, o significado necessário deve presumivelmente ser esclarecido pelo restante do contexto.
(Partes desta resposta são adaptadas de /math/1419609/are-there-3-ou-4-quartiles-99-or-100-percentiles , que também fornece citações + referências.)
fonte
Tome esta resposta com um grão de sal - ela começou bastante errada e ainda estou decidindo o que fazer com ela.
A questão é parcialmente sobre linguagem e uso, enquanto que essa resposta se concentra na matemática. Espero que a matemática forneça uma estrutura para entender diferentes usos.
Uma boa maneira de tratar isso é começar com uma matemática simples e voltar ao caso mais complicado de dados reais. Vamos começar com PDFs, CDFs e CDFs inversos (também conhecidos como funções quantis). O th quantil de uma distribuição com pdf e CDF é . Suponhamos que o percentil é . Isso fornece uma maneira de identificar a ambiguidade que você identifica: podemos observar situações em que é 1) não invertível, 2) somente invertível em um determinado domínio ou 3) invertível, mas seu inverso nunca atinge determinados valores.x f F F−1(x) z F−1(z/100) F
Exemplo de 1): vou deixar isso para o final; continue lendo.
Exemplo de 2): Para uma distribuição uniforme de 0,1, o CDF é invertível quando restrito a [0, 1], de modo que os percentis 100 e 0 podem ser definidos como e dada essa ressalva. Caso contrário, eles estão mal definidos, pois (por exemplo) também é 0.F−1(1) F−1(0) F(−0.5)
Outro exemplo de 2): Para uma distribuição uniforme nos dois intervalos separados de 0 a 1 e 2 a 3, o CDF se parece com isso.
A maioria dos quantis dessa distribuição existe e é única, mas a mediana (percentil 50) é inerentemente ambígua. Em R, eles vão até a metade:
quantile(c(runif(100), runif(100) + 2), 0.5)
retorna cerca de 1,5.Exemplo de 3): Para uma distribuição normal, os percentis 100 e 0 não existem (ou "são" ). Isso ocorre porque o CDF normal nunca atinge 0 ou 1.±∞
Discussão de 1): Para cdf "agradáveis", como com quantis não extremos ou distribuições contínuas, os percentis existem e são únicos. Mas para uma distribuição discreta como a distribuição de Poisson, minha definição é ambígua, porque para a maioria dos , não há com . Para uma distribuição de Poisson com expectativa 1, o CDF se parece com isso.z/100 y F(y)=z/100
Para o 60º percentil, R retorna 1 (
quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)
). Para o 65º percentil, R também retorna 1. Você pode pensar nisso como desenhar 100 observações, classificando-as de baixo a alto e retornando o 60º ou o 65º item. Se você fizer isso, geralmente receberá 1.Quando se trata de dados reais, todas as distribuições são discretas. (O CDF empírico de
runif(100)
ounp.random.random(100)
tem 100 incrementos agrupados em torno de 0,5.) Mas, em vez de tratá-los como discretos, aquantile
função de R parece tratá-los como amostras de distribuições contínuas. Por exemplo, a mediana (percentil 50 ou quantil 0,5) da amostra 3,4, 5, 6, 7, 8 é dada como 5,5. Se você extrair 2n amostras de uma distribuição unif (3,8) e pegar qualquer número entre a enésima e a (n + 1) ésima amostra, convergirá para 5,5 à medida que n aumenta.É interessante considerar também a distribuição uniforme e discreta, com igual probabilidade de atingir 3,4,5,6,7,8. (Uma rolagem de dados mais duas.) Se você seguir a abordagem de amostra e classificação descrita acima para a distribuição de Poisson, geralmente obterá 5 ou 6. À medida que as amostras aumentam, a distribuição do número na metade convergirá na metade cinco e meio e seis. 5.5 parece aqui também um compromisso razoável.
fonte
R
, por exemplo, digitequantile(0)
.Foi-me ensinado que uma observação no enésimo percentil era maior que n% das observações no conjunto de dados em consideração. O que para mim implica que não há percentil 0 ou 100. Nenhuma observação pode ser superior a 100% das observações porque faz parte desses 100% (e uma lógica semelhante se aplica no caso de 0).
Edit: Pelo que vale, isso também é consistente com o uso não acadêmico do termo que eu encontrei: "X está no nono percentil " implica que o percentil é o grupo, não um limite.
Infelizmente, não tenho nenhuma fonte para isso que possa apontar.
fonte
Existem outras maneiras de calcular percentis, o que segue, não é o único. Retirado desta fonte .
O significado de percentil pode ser capturado ao declarar que o percentil- de uma distribuição é um númerop tal que aproximadamente % ( ) dos valores na distribuição sejam iguais ou inferiores a esse número. Portanto, se é o percentil de um lote maior de números, % desses números são menores ou iguais a .p p% 28 80 80 28
Para calcular percentis, classifique os dados para que seja o menor valor e seja o maior,x1 xn
com = número total de observações, é o percentil do conjunto de dados em que:n xi pi
Exemplo das mesmas notas para ilustração:
Para dar um único exemplo, é o percentil da distribuição e cerca de metade dos valores na distribuição são iguais ou menores que .7 50 7
Não.
Supondo que os números sejam classificados em ordem crescente, movendo-se de para . Nesse caso, os percentis são:x1 x200
resultando em
fonte
Nota- Aceitarei a resposta de outra pessoa em vez da minha. Mas vejo alguns comentários úteis, por isso estou escrevendo uma resposta que os mencione.
Com base na terminologia "-iles" da resposta de Nick para a metade superior
parece que os termos são ambíguos, e suponho (com base no meu entendimento sobre esse post) que uma terminologia melhor seria X% point e X% -Y% group; ponto tão quantil (assim, para pontos quartil que podem ser de 0 a 4); grupo quantil que varia do ponto quantil X ao ponto quantil Y.
De qualquer maneira, obteríamos 101 para percentis, embora um comentário sugira que se possa referir a 101 pontos (suponho que se você contasse pontos percentuais e apenas números inteiros), mas mesmo assim, se falarmos em 1º, 2º, 3º, percentil ou quantil, está contando e não se pode contar o primeiro como 0, e você não pode ter, por exemplo, mais de 4 quartis ou mais de 100 percentis. Então, se falando em 1º, 2º e 3º, essa terminologia não pode realmente se referir ao ponto 0. Se alguém disse o 0º ponto, embora seja claro que eles significam o ponto 0, acho que eles deveriam realmente dizer o ponto 0. quantil ou o grupo quantil no ponto 0. Mesmo os cientistas da computação não diriam 0; até eles contam o primeiro item como 1 e, se o chamam de item 0, é uma indexação de 0, não uma contagem.
Um comentário menciona "Não pode haver 100. 99 ou 101, dependendo se você conta o máximo e o mínimo". Eu acho que há um argumento para 99 ou 101, quando se fala de pontos quantis em vez de grupos, embora eu não diria 0º. Para n itens, um índice pode ir de 0 ... n-1 e não se escreveria th / st, por exemplo, 1º, 2º etc, em um índice (a menos que talvez o índice tenha indexado o primeiro item como 1). Mas um índice iniciando o primeiro item com índice 0 não é uma 1ª, 2ª e 3ª contagens. por exemplo, item com índice de 0 é o 1º item, não se pode dizer 0 e rotular o segundo item como 1º.
fonte