Sei que se a mediana e a média são aproximadamente iguais, isso significa que há uma distribuição simétrica, mas neste caso em particular não tenho certeza. A média e a mediana estão bem próximas (apenas 0,487 m / gal de diferença), o que me levaria a dizer que há uma distribuição simétrica, mas olhando para o boxplot, parece que ele está ligeiramente inclinado positivamente (a mediana está mais próxima do Q1 do que do Q3, como confirmado pelos valores).
(Estou usando o Minitab se você tiver algum conselho específico para este software.)
Respostas:
Sem dúvida, você foi informado de outra forma, mas média mediana não implica simetria.=
Há uma medida da assimetria baseada na média menos a mediana (a segunda assimetria de Pearson), mas pode ser 0 quando a distribuição não é simétrica (como qualquer uma das medidas comuns de assimetria).
Da mesma forma, a relação entre média e mediana não implica necessariamente uma relação semelhante entre o midhinge ( ) e a mediana. Eles podem sugerir assimetria oposta, ou um pode ser igual à mediana enquanto o outro não.(Q1+Q3)/2
Uma maneira de investigar a simetria é através de um gráfico de simetria *.
Se são as observações ordenadas do menor para o maior (as estatísticas da ordem) e M é a mediana; em seguida, um gráfico de simetria plota Y ( n ) - M vs M - Y ( 1 ) , Y ( n - 1 ) - M vs M - Y ( 2 )Y(1),Y(2),...,Y(n) M Y(n)−M M−Y(1) Y( n - 1 )- M M- Y(2) , ... e assim por diante.
* O Minitab pode fazer isso . Na verdade, eu levanto essa plotagem como uma possibilidade, porque eu as vi feitas no Minitab.
Aqui estão quatro exemplos:
(As distribuições reais foram (da esquerda para a direita, primeira linha primeiro) - Laplace, Gamma (formato = 0,8), beta (2,2) e beta (5,2). O código é de Ross Ihaka, daqui )
Com exemplos simétricos de cauda pesada, geralmente os pontos mais extremos podem estar muito longe da linha; você prestaria menos atenção à distância da linha de um ou dois pontos ao se aproximar do canto superior direito da figura.
É claro que existem outras plotagens (mencionei a plotagem de simetria não a partir de um senso particular de defesa de causa, mas porque sabia que ela já estava implementada no Minitab). Então, vamos explorar alguns outros.
Aqui estão os gráficos correspondentes que Nick Cox sugeriu nos comentários:
Nessas parcelas, uma tendência para cima indicaria uma cauda direita tipicamente mais pesada que a esquerda e uma tendência para baixo indicaria uma cauda esquerda tipicamente mais pesada que a direita, enquanto a simetria seria sugerida por um gráfico relativamente plano (embora talvez bastante barulhento).
Nick sugere que esse enredo é melhor (especificamente "mais direto"). Estou inclinado a concordar; a interpretação do gráfico parece consequentemente um pouco mais fácil, embora as informações nos gráficos correspondentes sejam muitas vezes bastante semelhantes (depois de subtrair a inclinação da unidade no primeiro conjunto, você obtém algo parecido com o segundo conjunto).
[É claro que nada disso nos dirá que a distribuição da qual os dados foram extraídos é simétrica; obtemos uma indicação de quão próxima da simétrica é a amostra e, portanto, podemos avaliar se os dados são razoavelmente consistentes com os de uma população quase simétrica.]
fonte
skewplot
(SSC). A idéia remonta ao menos a uma sugestão atribuída a JW Tukey em Wilk, MB e Gnanadesikan, R. 1968. Métodos de plotagem de probabilidade para a análise de dados. Biometrika 55: 1-17.O mais fácil é calcular a assimetria da amostra . Há uma função no Minitab para isso. As distribuições simétricas terão assimetria zero. A assimetria zero não significa necessariamente simétrica, mas na maioria dos casos práticos.
Como o @NickCox observou, há mais de uma definição de assimetria. Eu uso o que é compatível com o Excel , mas você pode usar qualquer outro.
fonte
Centralize seus dados em torno de zero subtraindo a média da amostra. Agora divida seus dados em duas partes, a negativa e a positiva. Tome o valor absoluto dos pontos de dados negativos. Agora faça um teste de duas amostras de Kolmogorov-Smirnov comparando as duas partições. Faça sua conclusão com base no valor-p.
fonte
Coloque suas observações classificadas em valores crescentes em uma coluna e depois classifique-as em valores decrescentes em outra coluna.
Em seguida, calcule o coeficiente de correlação (chame-o de Rm) entre essas duas colunas.
Calcule o índice quiral: CHI = (1 + Rm) / 2.
CHI recebe valores no intervalo [0..1].
CHI é nulo SE e SOMENTE SE sua amostra é simetricamente distribuída.
Não há necessidade do terceiro momento.
Teoria:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(a maioria dos artigos citados nessas duas páginas pode ser baixada em PDF)
Espero que ajuda, mesmo ultimamente.
fonte