Estou interessado na definição de quartil que geralmente é usada quando você está em estatística básica. Eu tenho um livro do tipo Stat 101 e apenas fornece uma definição intuitiva. "Cerca de um quarto dos dados cai no ou no primeiro quartil ..." Mas, dá um exemplo em que calcula Q1, Q2 e Q3 para o conjunto de dados
5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37
Como existem 15 dados, ele escolhe 15 como a mediana, Q2. Em seguida, divide os dados restantes em duas metades, de 5 a 14 e de 16 a 37. Cada um deles contém 7 dados e encontram a mediana de cada um desses conjuntos, 10 e 18, como Q1 e Q3, respectivamente. É assim que eu próprio calcularia.
Eu olhei para o artigo da Wikipedia e dá dois métodos. Alguém concorda com o exposto acima e diz que você também pode incluir a mediana 15 em ambos os conjuntos (mas você não incluiria a mediana se fosse a média dos dois números do meio no caso de um número par de pontos de dados). Tudo isso faz sentido para mim.
Mas, verifiquei o Excel para ver como o Excel calcula. Estou usando o Excel 2010, que possui 3 funções diferentes. O quartil estava disponível em 2007 e versões anteriores. Parece que eles querem que você pare de usar isso em 2010, mas ainda está disponível. Quartile.Inc é novo, mas concorda exatamente com Quartile, tanto quanto eu posso dizer. E há o Quartile.Exc também. Ambos os dois últimos são novos em 2010, acredito. Dessa vez, tentei usar os números inteiros 1, 2, 3, ..., 10. Espero que o Excel dê mediana de 5,5, Q1 de 3 e Q3 de 8. O método do livro de estatísticas também como os dois métodos da Wikipedia dariam essas respostas, já que a mediana é a média dos dois números do meio. Excel dá
quartile number, Quartile.Inc, Quartile.Exc
1, 3.25, 2.75
2, 5.5, 5.5
3, 7.75, 8.25
Nenhuma delas concorda com o que eu falei anteriormente.
As descrições no arquivo de ajuda para o Excel são:
Quartile.Inc - Retorna o quartil de um conjunto de dados, com base em valores de percentil de 0..1, inclusive.
Quartile.Exc - Retorna o quartil do conjunto de dados, com base em valores de percentil de 0..1, exclusivos.
Alguém pode me ajudar a entender essa definição que o Excel está usando?
Respostas:
Normalmente, uma classificação (entre e para dados) é convertida em uma porcentagem através da fórmula1 n n pr 1 1 n n p
para alguma "posição de plotagem" predeterminada entre e , inclusive. A resolução de em termos de dá0 1 r pα 0 0 1 1 r p
O Excel historicamente usou para suas funções eα = 1
PERCENTILE
QUARTILE
. A documentação on-line paraQUARTILE.INC
eQUARTILE.EXC
é inútil, por isso temos de fazer engenharia reversa que essas funções estão fazendo.Por exemplo, com dados , dispomos de e para os três quartis. O uso de na fórmula anterior gera classificações de , e , reproduzindo os resultados para .n = 10 p ∈ { 25 , 50 , 75 } α = 1 9 ( 0,25 ) + 1 = 3,25 9 ( 0,50 ) + 1 = 5,5 9 ( 0,75 ) + 1 =( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 ) n = 10 p ∈ { 25 , 50 , 75 } α = 1 9 ( 0,25 ) + 1 = 3,25 9 ( 0,50 ) + 1 = 5,5 9 ( 0,75 ) + 1 = 7,75
QUARTILE.INC
Se, em vez disso, definirmos as classificações correspondentes serão , e , reproduzindo os resultados para .11 ( 0,25 ) = 2,75 11 ( 0,50 ) = 5,5 11 ( 0,75 ) = 8,25α = 0 11 ( 0,25 ) = 2,75 11 ( 0,50 ) = 5,5 11 ( 0,75 ) = 8,25
QUARTILE.EXC
Testes adicionais da sua parte (não tenho uma versão recente do Excel) podem estabelecer a validade do meu palpite de que essas duas versões da função quartil são determinadas por esses dois valores (extremos) deα .
A propósito, classificações fracionárias são convertidas em valores de dados por meio de interpolação linear. O processo é explicado e ilustrado nas anotações do meu curso em Percentis e parcelas do FED - veja na parte inferior da página. Há também um link para uma planilha do Excel que ilustra os cálculos.
Se você deseja implementar uma função de percentil geral no Excel , aqui está uma macro VBA para fazer isso:
Ele converte um percentual nominal (como 25/100) no percentual que faria com que a
PERCENTILE
função do Excel retornasse o valor desejado. Destina-se ao uso em fórmulas celulares, como em=PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5))
.fonte
Parece-me que o Excel
quartile.inc
concorda com o originalquartile
, que concorda com o padrão de R e outras definições.Com uma dica útil do whuber, descobri que o Excel
quartile.exc
parece concordar (no caso 1..10) com atype=6
definição de quantil de R:O que aparentemente responde à sua pergunta: "Sim, o Minitab e o SPSS fazem".
fonte
Eu acho que o sabor excêntrico do quartil é apenas ignorar o 5 e o 37 (mínimo e máximo nos dados originais).
No Stata, as versões padrão e alternativa fornecem valores quartile.exc com esses dados.
fonte
QUARTILE.EXC
.#NUM!
PERCENTILE
Muitas coisas interessantes e detalhadas, mas voltando à pergunta original, não vejo que duas maneiras ligeiramente diferentes que possam não dar exatamente a mesma resposta sejam realmente importantes. O primeiro quatile é o ponto em que 25% das observações se enquadram nele ou abaixo dele. Dependendo do tamanho da amostra, esse pode ou não ser um ponto exato nos dados. Portanto, se um ponto está abaixo e o próximo acima, esse primeiro quartil não está muito bem definido e qualquer ponto entre esses dois pode servir igualmente bem. O mesmo vale para a mediana quando o tamanho da amostra é uniforme. A regra escolhe o ponto médio entre os pontos de dados abaixo e acima. Mas nada realmente diz que a escolha dada pela regra é realmente melhor do que qualquer outro ponto.
fonte
Para aqueles que usam o Excel, há uma boa descrição dos diferentes métodos de versão aqui http://peltiertech.com/WordPress/comparison/
fonte
no excel 2016 notei que é possível obter valores corretos de quartis se:
fonte