Encontrando quartis em R

33

Estou trabalhando em um livro de estatística enquanto aprendo R e encontrei um obstáculo no exemplo a seguir:

insira a descrição da imagem aqui

Depois de olhar, ?quantiletentei recriar isso em R com o seguinte:

> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
   0%   25%   50%   75%  100% 
  6.0   9.5  16.0  28.0 104.0 

Dado que o texto e R têm resultados diferentes, estou constatando que R está utilizando a mediana no cálculo do primeiro e terceiro quartis.

Questão:

Devo incluir a mediana no cálculo do primeiro e terceiro quartis?

Mais especificamente, o livro ou o R estão corretos? Se o livro estiver correto, existe uma maneira de conseguir isso corretamente no R?

Desde já, obrigado.


fonte
6
Alguns tópicos aqui discutem as várias maneiras pelas quais os quantis podem ser calculados ou estimados. Aqui está um com uma resposta oficial, mas outros estão disponíveis pesquisando em nosso site. Em resumo, seu livro parece apresentar um método não-padrão de calcular quartis, mas os quantiletipos 1, 2 e 6 os reproduzirão para um conjunto de dados desse tamanho específico . Nenhum dos Rmétodos corresponde ao seu livro. (Alguém se pergunta sobre a qualidade deste texto ...)
whuber
@whuber Obrigado por este comentário, ajudou muito, pois temo que ainda não tenha o conhecimento técnico para distinguir exatamente o que os diferentes tipos quantileestão fazendo.
@ whuber: é claramente fora do padrão (o que provavelmente é mencionado em algum lugar do livro), mas não é intuitivo. Você acha que está errado matematicamente?
Michael M
6
@ Michael Você pode definir um "quartil" para ser o que quiser, para que não haja nada de errado em termos matemáticos. É claro quen
1
R usa nove definições diferentes de quantis (por padrão, usa a definição 7). Veja?quantile
Glen_b -Reinstate Monica 15/03

Respostas:

43

Seu livro está confuso. Muito poucas pessoas ou software definem quartis dessa maneira. (Isso tende a tornar o primeiro quartil muito pequeno e o terceiro quartil muito grande.)

A quantilefunção Rimplementa nove maneiras diferentes de calcular quantis! Para ver quais deles, se houver, correspondem a esse método, vamos começar implementando-o. A partir da descrição, podemos escrever um algoritmo, primeiro matematicamente e depois em R:

  1. Ordenar os dados x1x2xn

  2. Para qualquer conjunto de dados, a mediana é seu valor intermediário quando há um número ímpar de valores; caso contrário, é a média dos dois valores médios quando há um número par de valores. RA medianfunção de calcula isso.

    m=(n+1)/2(xeu+xvocê)/2euvocêmmxmeu=m-1você=m+1euvocê

  3. xEuEueu(xEu)Euvocê

Aqui está uma implementação. Pode ajudá-lo a fazer seus exercícios neste livro.

quart <- function(x) {
  x <- sort(x)
  n <- length(x)
  m <- (n+1)/2
  if (floor(m) != m) {
    l <- m-1/2; u <- m+1/2
  } else {
    l <- m-1; u <- m+1
  }
  c(Q1=median(x[1:l]), Q3=median(x[u:n]))
}

Por exemplo, a saída de quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))concorda com o texto:

Q1 Q3 
 9 33 

Vamos calcular quartis para alguns pequenos conjuntos de dados usando todos os dez métodos: os nove Re os do livro:

y <- matrix(NA, 2, 10)
rownames(y) <- c("Q1", "Q3")
colnames(y) <- c(1:9, "Quart")
for (n in 3:5) {
  j <- 1
  for (i in 1:9) {
    y[, i] <- quantile(1:n, probs=c(1/4, 3/4), type=i)
  }
  y[, 10] <- quart(1:n)
  cat("\n", n, ":\n")
  print(y, digits=2)
}

Quando você executa isso e verifica, verá que os valores dos livros didáticos não concordam com nenhuma das Rsaídas dos três tamanhos de amostra. (O padrão de desacordos continua nos ciclos do período três, mostrando que o problema persiste, não importa o tamanho da amostra.)

9,528. para o conjunto de dados de exemplo.

whuber
fonte
3
Um grande obrigado por uma resposta tão detalhada, além de me fornecer as ferramentas para trabalhar sozinho e avaliar os diferentes métodos. Vou acendê-los agora e analisar as coisas com mais detalhes.
2

No campo da estatística (que ensino, mas em que não sou pesquisador), os cálculos de quartis são particularmente ambíguos (de uma maneira que não é necessariamente verdadeira para os quantis, de maneira mais geral). Isso tem muita história por trás disso, em parte por causa do uso (e talvez abuso) da faixa interquartil (IQR), que é insensível aos discrepantes, como uma verificação ou alternativa ao desvio padrão. Continua sendo um concurso aberto, com três métodos distintos para calcular Q1 e Q3 sendo co-canônicos.

Como geralmente é o caso, o artigo da Wikipedia tem um resumo razoável: https://en.m.wikipedia.org/wiki/Quartile O texto de Larson e Farber, como a maioria dos textos estatísticos elementares, usa o que é descrito no artigo da Wikipedia como " Método 1." Se eu seguir as descrições acima, r usará o "Método 3". Você terá que decidir por si mesmo o que é canonicamente apropriado em seu próprio campo.

James Klock
fonte
Você faz bons pontos (+1). Porém, considerando que as referências para o "Método 1" são a calculadora TI-83 e o Excel (cuja falta de credibilidade é bem conhecida), que esse método é comprovadamente tendencioso e que não é mais difícil calcular do que as dobradiças de Tukey. parece difícil justificar ou recomendar seu uso.
whuber