Eu tenho um conjunto de dados unidimensional e uso a boxplot
função para criar um gráfico de caixa. Então eu posso ver que tenho alguns outliers.
Os outliers contam quando os quantis estão sendo determinados?
Existe uma maneira certa / errada ou ambas as formas estão corretas, desde que tenhamos certeza sobre qual método foi usado? Se sim, como R faz isso?
r
data-visualization
boxplot
k.dkhk
fonte
fonte
Respostas:
R - como muitos, mas nem todos os programas - usa principalmente a definição * de Tukey de como desenhar um boxplot.
A amostra original inteira é usada para calcular as dobradiças (onde as extremidades da caixa são desenhadas).
As dobradiças são muito parecidas com os quartis (você poderia dizer que são uma maneira específica de calcular os quartis superior e inferior que diferem um pouco das definições mais comuns de quartis - embora existam várias definições diferentes de quartis de amostra; de fato, R oferece nove cálculos distintos de quartis, sem contar as dobradiças).
A dobradiça superior está na mediana da metade superior dos dados (a metade superior inclui a mediana da amostra original, se for um ponto de dados) e a dobradiça inferior está na mediana da metade inferior (que também inclui a mediana da amostra original se estivesse em um ponto de dados):
Assim, por exemplo, com 6 observações, as dobradiças são a segunda maior e a quinta maior observação (3 pontos em cada metade). Com 9 observações, as dobradiças são a 3ª e a 8ª maiores (5 pontos em cada metade, a mediana chegando nas duas partes). Com 11 observações, a dobradiça inferior fica a meio caminho entre a 3ª e a 4ª maior observação e a dobradiça superior fica a meio caminho entre a 8ª e a 9ª maior observação (6 pontos em cada metade). A ilustração mostra o caso com 13 observações.
Observe que os quartis (/ dobradiças) não são de modo algum sensíveis aos valores dos valores discrepantes, apenas ao fato de estarem fora dos quartis. Você pode movê-los todos para perto das extremidades da caixa (para que não haja discrepâncias) sem alterar os quartis / dobradiças ou o mais longe que desejar (para que todos estejam longe), novamente sem alterar os valores dos quartis . Portanto, realmente não há necessidade de fazer nada quando há um "outlier".
* Ou melhor, um deles; Tukey deu várias definições, embora, para os propósitos atuais, precisemos apenas nos preocupar com o funcionamento do cálculo das dobradiças; Digo principalmente porque a versão com "outliers" seria o que Tukey chamou de enredo esquemático, mas eles não fazem aquele com dois tipos distintos de marcas "outlier".
fonte