Existem 99 percentis ou 100 percentis? E são grupos de números, divisores ou indicadores para números individuais?

27

Existem 99 percentis ou 100 percentis? E são grupos de números, linhas divisórias ou ponteiros para números individuais?

Suponho que a mesma pergunta se aplicaria a quartis ou a qualquer quantil.

Eu li que o índice de um número em um percentil específico (p), dados n itens, é i = (p / 100) * n

Isso sugere para mim que existem 100 percentis .. porque, supondo que você tenha 100 números (i = 1 a i = 100), cada um deles teria um índice (1 a 100).

Se você tivesse 200 números, haveria 100 percentis, mas cada um se referiria a um grupo de dois números. Ou 100 divisores, excluindo o divisor da extrema esquerda ou da extrema direita ', caso contrário, você obteria 101 divisores. Ou ponteiros para números individuais para que o primeiro percentil se refira ao segundo número (1/100) * 200 = 2 E o centésimo percentil se refira ao 200º número (100/100) * 200 = 200

Às vezes, ouvi falar de 99 percentis ..

O Google mostra o dicionário oxford que diz sobre percentil - "cada um dos 100 grupos iguais em que uma população pode ser dividida de acordo com a distribuição de valores de uma variável específica". e "cada um dos 99 valores intermediários de uma variável aleatória que divide uma distribuição de frequência em 100 desses grupos".

A Wikipedia diz que "o 20º percentil é o valor abaixo do qual 20% das observações podem ser encontradas". Mas na verdade significa "o valor abaixo ou igual ao qual 20% das observações podem ser encontradas" ou seja, "o valor pelo qual 20% das observações podem ser encontradas" % dos valores são <= para ele ". Se fosse apenas <e não <=, então, com esse raciocínio, o 100º percentil seria o valor abaixo do qual 100% dos valores podem ser encontrados. Ouvi isso como argumento de que não pode haver 100% de percentil, porque você não pode ter um número em que haja 100% dos números abaixo dele. Mas acho que talvez o argumento de que você não pode ter um percentil 100 esteja incorreto e se baseie em um erro que a definição de percentil envolve <= não <. (ou> = não>). Portanto, o centésimo percentil seria o número final e seria>

barlop
fonte
4
Penso que é improvável que 100 seja uma resposta razoável devido ao tratamento assimétrico dos extremos. Casos podem ser feitos para 99 (como na definição
citada
4
Historicamente, os quantis - como agora dizemos genericamente - foram os primeiros pontos de resumo e, em seguida, por extensão, os compartimentos, classes ou intervalos que eles delimitam. Portanto, três quartis, incluindo a mediana, definem quatro posições, e assim por diante.
Nick Cox
11
@whuber Você escreve "Acho improvável que 100 seja uma resposta razoável devido ao tratamento assimétrico dos extremos". <- você pode elaborar sobre isso?
barlop 07/10
3
Listo os primeiros usos de vários termos quantílicos em stats.stackexchange.com/questions/235330/… . Se você procurar no OED ou no jstor, obterá exemplos de uso histórico.
Nick Cox
2
@whuber Sim, parece que o que estou referenciando é chamado apropriadamente de "classificação percentil", usada em relatórios de pontuação de testes & c .: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / recursos / glossário . Desculpas por adicionar confusão. Em minha defesa, a diferença parece depender do uso das preposições "em" vs. "em" (ver 1º link).
Jeff Y

Respostas:

32

Ambos os sentidos de percentil , quartil e assim por diante são amplamente utilizados. É mais fácil ilustrar a diferença com quartis:

  1. o sentido “divisor” - existem 3 quartis, que são os valores que dividem a distribuição (ou amostra) em 4 partes iguais:

       1   2   3
    ---|---|---|---
    

    (Às vezes, isso é usado com os valores max e min incluídos, portanto, existem 5 quartis numerados de 0 a 4; observe que isso não entra em conflito com a numeração acima, apenas a estende.)

  2. o sentido “bin”: existem 4 quartis, os subconjuntos nos quais esses 3 valores dividem a distribuição (ou amostra)

     1   2   3   4
    ---|---|---|---
    

Nenhum desses usos pode ser razoavelmente chamado de “errado”: ​​ambos são usados ​​por muitos praticantes experientes e aparecem em muitas fontes autorizadas (livros didáticos, dicionários técnicos e similares).

Com os quartis, o sentido usado geralmente é claro no contexto: falar de um valor no terceiro quartil pode ser apenas o sentido "bin", enquanto falar de todos os valores abaixo do terceiro quartil provavelmente significa o sentido "divisor". Com os percentis, a distinção costuma não ser clara, mas também não é tão significativa para a maioria dos propósitos, uma vez que 1% de uma distribuição é tão pequena - uma faixa estreita é aproximadamente uma linha. Falar em todos os que estão acima do percentil 80 pode significar os 20% ou os 19% melhores, mas em um contexto informal que não é uma grande diferença e, em trabalhos rigorosos, o significado necessário deve presumivelmente ser esclarecido pelo restante do contexto.

(Partes desta resposta são adaptadas de /math/1419609/are-there-3-ou-4-quartiles-99-or-100-percentiles , que também fornece citações + referências.)

PLL
fonte
2
(+1) Essa resposta tardia chega muito bem ao cerne da questão.
Nick Cox
que sobre en.wikipedia.org/wiki/Percentile diz "cada pontuação está no percentil 100" <- que soa como um bin o tamanho de todo o conjunto de dados, enquanto que seus caixas são todos os tamanhos iguais
barlop
11
A entrada da Wikipedia diz isso. Não consigo pensar em uma defesa para essa redação. A Wikipedia é maravilhosa, exceto quando é enganosa ou errada. Isso soará irreverente, mas tudo o que posso fazer é incentivar qualquer pessoa que esteja ativa na Wikipedia a melhorar a entrada. Todo mundo precisa ter regras para o que faz e o que não faz, e ser ativo aqui e em alguns outros lugares é o meu limite pessoal.
Nick Cox
5

Tome esta resposta com um grão de sal - ela começou bastante errada e ainda estou decidindo o que fazer com ela.

A questão é parcialmente sobre linguagem e uso, enquanto que essa resposta se concentra na matemática. Espero que a matemática forneça uma estrutura para entender diferentes usos.

Uma boa maneira de tratar isso é começar com uma matemática simples e voltar ao caso mais complicado de dados reais. Vamos começar com PDFs, CDFs e CDFs inversos (também conhecidos como funções quantis). O th quantil de uma distribuição com pdf e CDF é . Suponhamos que o percentil é . Isso fornece uma maneira de identificar a ambiguidade que você identifica: podemos observar situações em que é 1) não invertível, 2) somente invertível em um determinado domínio ou 3) invertível, mas seu inverso nunca atinge determinados valores.xfFF1(x)zF1(z/100)F

Exemplo de 1): vou deixar isso para o final; continue lendo.

Exemplo de 2): Para uma distribuição uniforme de 0,1, o CDF é invertível quando restrito a [0, 1], de modo que os percentis 100 e 0 podem ser definidos como e dada essa ressalva. Caso contrário, eles estão mal definidos, pois (por exemplo) também é 0.F1(1)F1(0)F(0.5)

Outro exemplo de 2): Para uma distribuição uniforme nos dois intervalos separados de 0 a 1 e 2 a 3, o CDF se parece com isso.

insira a descrição da imagem aqui

A maioria dos quantis dessa distribuição existe e é única, mas a mediana (percentil 50) é inerentemente ambígua. Em R, eles vão até a metade: quantile(c(runif(100), runif(100) + 2), 0.5)retorna cerca de 1,5.

Exemplo de 3): Para uma distribuição normal, os percentis 100 e 0 não existem (ou "são" ). Isso ocorre porque o CDF normal nunca atinge 0 ou 1.±

Discussão de 1): Para cdf "agradáveis", como com quantis não extremos ou distribuições contínuas, os percentis existem e são únicos. Mas para uma distribuição discreta como a distribuição de Poisson, minha definição é ambígua, porque para a maioria dos , não há com . Para uma distribuição de Poisson com expectativa 1, o CDF se parece com isso.z/100yF(y)=z/100

insira a descrição da imagem aqui

Para o 60º percentil, R retorna 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)). Para o 65º percentil, R também retorna 1. Você pode pensar nisso como desenhar 100 observações, classificando-as de baixo a alto e retornando o 60º ou o 65º item. Se você fizer isso, geralmente receberá 1.

Quando se trata de dados reais, todas as distribuições são discretas. (O CDF empírico de runif(100)ou np.random.random(100)tem 100 incrementos agrupados em torno de 0,5.) Mas, em vez de tratá-los como discretos, a quantilefunção de R parece tratá-los como amostras de distribuições contínuas. Por exemplo, a mediana (percentil 50 ou quantil 0,5) da amostra 3,4, 5, 6, 7, 8 é dada como 5,5. Se você extrair 2n amostras de uma distribuição unif (3,8) e pegar qualquer número entre a enésima e a (n + 1) ésima amostra, convergirá para 5,5 à medida que n aumenta.

É interessante considerar também a distribuição uniforme e discreta, com igual probabilidade de atingir 3,4,5,6,7,8. (Uma rolagem de dados mais duas.) Se você seguir a abordagem de amostra e classificação descrita acima para a distribuição de Poisson, geralmente obterá 5 ou 6. À medida que as amostras aumentam, a distribuição do número na metade convergirá na metade cinco e meio e seis. 5.5 parece aqui também um compromisso razoável.

eric_kernfeld
fonte
2
Seu primeiro parágrafo possui algumas informações incorretas: é realmente único em muitos casos, inclusive para a distribuição uniforme em (quando é restrito a si). Isso tem pouco a ver com ser "constante". Eu acho que você está apresentando argumentos enganosos que misturam os papéis de continuidade, invertibilidade e limite de suporte às distribuições. A introdução de estimadores e a referência a eles também como "quantis" é interessante, mas ameaça tornar as coisas ainda mais confusas. [ 0 , 1 ] F [ 0 , 1 ] FF1[0,1]F[0,1]F
whuber
Bom ponto. Eu tentei separar alguns casos para esclarecer isso. Como você melhoraria a discussão sobre continuidade? A interpretação dos quantis como estimadores é o ponto central da minha resposta; eles realmente não fazem sentido para mim sem isso.
eric_kernfeld
Quanto ao último: quantis não precisam estimar nada. Eles são úteis por si só para descrever e visualizar dados (e geralmente são usados ​​apenas como estatística descritiva). Re continuidade: Eu acho que a maioria das autoridades diria que todos os percentis existem para distribuições discretas. Insistir no contrário é uma complicação desnecessária. Também tornaria os resultados da maioria dos cálculos de software absolutamente misteriosos, que fornecem todos os quantis de 0 a 1 ( inclusive ) para qualquer conjunto de dados. Em R, por exemplo, digite quantile(0).
whuber
Essa discussão me fez perceber que não entendo quantis de distribuições discretas. Eu acho que devo excluir esta resposta.
eric_kernfeld
11
As pessoas variam sobre isso, Eric. Quando minhas respostas são tão erradas que são enganosas, primeiro as apago. Se vir algum valor potencial em parte da resposta, edito-o para remover (ou explicar) a parte enganosa e, em seguida, desfazer a exclusão. Outros simplesmente deixam as coisas em pé e tomam seu lugar na votação; outros adicionam uma edição sugerindo que pode haver valor para os leitores verem onde ocorreu algum mal-entendido; outros ainda excluem. Você pode até mudar completamente a resposta, se quiser, como às vezes é feito.
whuber
2

Foi-me ensinado que uma observação no enésimo percentil era maior que n% das observações no conjunto de dados em consideração. O que para mim implica que não há percentil 0 ou 100. Nenhuma observação pode ser superior a 100% das observações porque faz parte desses 100% (e uma lógica semelhante se aplica no caso de 0).

Edit: Pelo que vale, isso também é consistente com o uso não acadêmico do termo que eu encontrei: "X está no nono percentil " implica que o percentil é o grupo, não um limite.

Infelizmente, não tenho nenhuma fonte para isso que possa apontar.

mkt - Restabelecer Monica
fonte
6
Você tem uma referência autorizada para o que você lembra de ter sido ensinado? Observe que você está adotando implicitamente uma definição de "percentil" como sendo um grupo de números. A outra definição citada na pergunta é que o percentil é um limite entre esses grupos.
whuber
11
Isso não faz sentido para mim, porque suponha que seus dados sejam 2,2,2,2,2,2,2,2,2,2,2, portanto, um item em um quantil é igual a um item à sua esquerda em um quantil anterior. Portanto, um item no enésimo quinto quantil não é maior que todos os quantis restantes dele. Portanto, um item no enésimo percentil não é maior que n% de observações no conjunto de dados. É> = n% de observações no conjunto de dados, mas não simplesmente>. E, portanto, você pode ter um centésimo sexuado. O que você acha dessa lógica?
barlop 07/10
4
Muitas definições ficam sob tensão se todos os valores forem idênticos!
Nick Cox
2
Os matemáticos inclinados abstraem e idealizam, enquanto aqueles que escrevem software precisam lidar com a confusão dos dados. Seu exemplo de 16 valores seria tratado de maneira diferente pelo software que eu sei, que segue uma regra em que valores idênticos devem ser classificados de forma idêntica (e eu concordo). Estou surpreso que você não tenha agonizado com dados com 15 ou 17 valores, mesmo que todos os valores sejam distintos, nenhuma regra pode dividir os dados em quatro compartimentos do mesmo tamanho.
Nick Cox
3
Qual é a lógica semelhante para zero? "Maior que zero por cento das observações" não significa "igual ou menor que todas as observações", ou seja, o percentil 0 seria o menor valor observado?
ilkkachu 8/10
2

Existem outras maneiras de calcular percentis, o que segue, não é o único. Retirado desta fonte .


O significado de percentil pode ser capturado ao declarar que o percentil- de uma distribuição é um númerop tal que aproximadamente % ( ) dos valores na distribuição sejam iguais ou inferiores a esse número. Portanto, se é o percentil de um lote maior de números, % desses números são menores ou iguais a .pp%28808028

Para calcular percentis, classifique os dados para que seja o menor valor e seja o maior,x1xn

com = número total de observações, é o percentil do conjunto de dados em que:nxipi

pi=100(i0.5)n

Exemplo das mesmas notas para ilustração:

insira a descrição da imagem aqui

Para dar um único exemplo, é o percentil da distribuição e cerca de metade dos valores na distribuição são iguais ou menores que .7507

Se você tivesse 200 números, haveria 100 percentis, mas cada um se referiria a um grupo de dois números.

Não.

Supondo que os números sejam classificados em ordem crescente, movendo-se de para . Nesse caso, os percentis são:x1x200

100(10.5)200 , , ,100(20.5)200100(30.5)200...

resultando em

0.25,0.75,1.25... percentis correspondentes aos índices1,2,3,...

ingênuo
fonte
3
A primeira frase parece ótima e uma das palavras mais importantes é aproximadamente . A seguir, essa é uma explicação cuidadosa de apenas uma receita. O importante é que existem várias receitas e a maioria, se não todas, possui alguma lógica defensável sobre elas (às vezes, a lógica é manter as coisas o mais simples possível). Veja o artigo de Hyndman e Fan mencionado em muitos tópicos aqui no CV. Duvido que muitas pessoas usem seu último parágrafo como forma de relatar percentis para o seu exemplo.
Nick Cox
@Nick Cox Obrigado pelo comentário perspicaz. Sobre o último parágrafo, acredito que o método funcione bem quando todas as observações forem diferentes umas das outras. No caso de números repetidos, não haverá percentil exclusivo para o mesmo número, o que não parece bom. Você poderia sugerir como lidar com o caso. E você também pode apontar as possíveis armadilhas no último parágrafo.
ingênuo
11
Acho que não quero ou preciso acrescentar ao que já está bem explicado na literatura de periódicos. Primeiro, você tem algum software favorito para isso. Veja o que documenta e o que faz. Segundo, não calculo percentis à mão há algumas décadas e nenhum de nós precisa. Terceiro, meu argumento sobre o último parágrafo: acho que ninguém quer saber que os pontos de dados observados são os percentis 0,25, 0,75, 1,25, .... O que as pessoas querem varia, mas, na minha experiência, é comum quererem resumos como 1, 5, 10, 25, 50, 75, 90, 95, 99% de pontos, bem como os extremos da amostra.
Nick Cox
11
Acabei de notar que você afirma que 0,5 está no jargão da EDA, geralmente chamado de valor-p para a mediana. Não na minha leitura, e mesmo que você possa encontrar exemplos que sejam terríveis terminologia, dado um grande senso de maioria para o valor-p como nível de significância observado.
Nick Cox
Vou examinar o artigo que você sugeriu. Obrigado
ingênuo
0

Nota- Aceitarei a resposta de outra pessoa em vez da minha. Mas vejo alguns comentários úteis, por isso estou escrevendo uma resposta que os mencione.

Com base na terminologia "-iles" da resposta de Nick para a metade superior

parece que os termos são ambíguos, e suponho (com base no meu entendimento sobre esse post) que uma terminologia melhor seria X% point e X% -Y% group; ponto tão quantil (assim, para pontos quartil que podem ser de 0 a 4); grupo quantil que varia do ponto quantil X ao ponto quantil Y.

De qualquer maneira, obteríamos 101 para percentis, embora um comentário sugira que se possa referir a 101 pontos (suponho que se você contasse pontos percentuais e apenas números inteiros), mas mesmo assim, se falarmos em 1º, 2º, 3º, percentil ou quantil, está contando e não se pode contar o primeiro como 0, e você não pode ter, por exemplo, mais de 4 quartis ou mais de 100 percentis. Então, se falando em 1º, 2º e 3º, essa terminologia não pode realmente se referir ao ponto 0. Se alguém disse o 0º ponto, embora seja claro que eles significam o ponto 0, acho que eles deveriam realmente dizer o ponto 0. quantil ou o grupo quantil no ponto 0. Mesmo os cientistas da computação não diriam 0; até eles contam o primeiro item como 1 e, se o chamam de item 0, é uma indexação de 0, não uma contagem.

Um comentário menciona "Não pode haver 100. 99 ou 101, dependendo se você conta o máximo e o mínimo". Eu acho que há um argumento para 99 ou 101, quando se fala de pontos quantis em vez de grupos, embora eu não diria 0º. Para n itens, um índice pode ir de 0 ... n-1 e não se escreveria th / st, por exemplo, 1º, 2º etc, em um índice (a menos que talvez o índice tenha indexado o primeiro item como 1). Mas um índice iniciando o primeiro item com índice 0 não é uma 1ª, 2ª e 3ª contagens. por exemplo, item com índice de 0 é o 1º item, não se pode dizer 0 e rotular o segundo item como 1º.

barlop
fonte
Qualquer ambiguidade foi introduzida por aqueles que se afastaram do claro precedente histórico. Não morde muito na prática.
Nick Cox
Todos os matemáticos começam a contar em zero. O conceito é simples e natural: dizer a palavra "zero" em voz alta anuncia a intenção de contar. Então, faz-se uma atribuição individual (talvez arbitrária) da sequência de palavras "um", "dois", "três" etc. etc. aos objetos que estão sendo contados. A última dessas palavras (se houver uma última) é igualada à cardinalidade do conjunto. A beleza dessa idéia é que, quando não há elementos no conjunto, a última palavra dita era "zero", que é o valor correto exclusivo.
whuber
@whuber você escreve "Todos os matemáticos começam a contar com zero" <- Onde você acha que eu disse o contrário?
barlop 08/10
"está contando e não se pode contar o primeiro como 0".
whuber
11
@whuber possivelmente muitos, acho que há muitos anos atrás, como quando estudava ciência da computação, ouvi algumas vezes que os cientistas da computação contam de 0, matemáticos unilacos (essa não é a sua reivindicação ou a minha), mas depois de um profundo pensamento, consegui mais clareza e percebi que os cientistas da computação e os matemáticos contam com 0. A diferença é que os cientistas da computação geralmente usam um índice e o índice indexa o primeiro item como 0. (mas ainda conta seria 1) ..
barlop