Estou trabalhando em um livro de estatística enquanto aprendo R e encontrei um obstáculo no exemplo a seguir:
Depois de olhar, ?quantile
tentei recriar isso em R com o seguinte:
> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
0% 25% 50% 75% 100%
6.0 9.5 16.0 28.0 104.0
Dado que o texto e R têm resultados diferentes, estou constatando que R está utilizando a mediana no cálculo do primeiro e terceiro quartis.
Questão:
Devo incluir a mediana no cálculo do primeiro e terceiro quartis?
Mais especificamente, o livro ou o R estão corretos? Se o livro estiver correto, existe uma maneira de conseguir isso corretamente no R?
Desde já, obrigado.
quantile
tipos 1, 2 e 6 os reproduzirão para um conjunto de dados desse tamanho específico . Nenhum dosR
métodos corresponde ao seu livro. (Alguém se pergunta sobre a qualidade deste texto ...)quantile
estão fazendo.?quantile
Respostas:
Seu livro está confuso. Muito poucas pessoas ou software definem quartis dessa maneira. (Isso tende a tornar o primeiro quartil muito pequeno e o terceiro quartil muito grande.)
A
quantile
funçãoR
implementa nove maneiras diferentes de calcular quantis! Para ver quais deles, se houver, correspondem a esse método, vamos começar implementando-o. A partir da descrição, podemos escrever um algoritmo, primeiro matematicamente e depois emR
:Ordenar os dadosx1≤ x2≤ ⋯ ≤ xn
Para qualquer conjunto de dados, a mediana é seu valor intermediário quando há um número ímpar de valores; caso contrário, é a média dos dois valores médios quando há um número par de valores.
R
Amedian
função de calcula isso.Aqui está uma implementação. Pode ajudá-lo a fazer seus exercícios neste livro.
Por exemplo, a saída de
quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))
concorda com o texto:Vamos calcular quartis para alguns pequenos conjuntos de dados usando todos os dez métodos: os nove
R
e os do livro:Quando você executa isso e verifica, verá que os valores dos livros didáticos não concordam com nenhuma das
R
saídas dos três tamanhos de amostra. (O padrão de desacordos continua nos ciclos do período três, mostrando que o problema persiste, não importa o tamanho da amostra.)fonte
No campo da estatística (que ensino, mas em que não sou pesquisador), os cálculos de quartis são particularmente ambíguos (de uma maneira que não é necessariamente verdadeira para os quantis, de maneira mais geral). Isso tem muita história por trás disso, em parte por causa do uso (e talvez abuso) da faixa interquartil (IQR), que é insensível aos discrepantes, como uma verificação ou alternativa ao desvio padrão. Continua sendo um concurso aberto, com três métodos distintos para calcular Q1 e Q3 sendo co-canônicos.
Como geralmente é o caso, o artigo da Wikipedia tem um resumo razoável: https://en.m.wikipedia.org/wiki/Quartile O texto de Larson e Farber, como a maioria dos textos estatísticos elementares, usa o que é descrito no artigo da Wikipedia como " Método 1." Se eu seguir as descrições acima, r usará o "Método 3". Você terá que decidir por si mesmo o que é canonicamente apropriado em seu próprio campo.
fonte