Como saber se minha distribuição de dados é simétrica?

23

Sei que se a mediana e a média são aproximadamente iguais, isso significa que há uma distribuição simétrica, mas neste caso em particular não tenho certeza. A média e a mediana estão bem próximas (apenas 0,487 m / gal de diferença), o que me levaria a dizer que há uma distribuição simétrica, mas olhando para o boxplot, parece que ele está ligeiramente inclinado positivamente (a mediana está mais próxima do Q1 do que do Q3, como confirmado pelos valores).

(Estou usando o Minitab se você tiver algum conselho específico para este software.)

user72943
fonte
Comentário ortogonal sobre um detalhe: quais unidades são m / gal? Parece metros por galão, e estou intrigado.
Nick Cox
É uma limitação séria aqui que os gráficos de caixa geralmente não mostram meios!
Nick Cox
Qual é o desvio padrão dos seus dados? Se o valor de 0,487m / gal é muito menor que o seu desvio padrão, provavelmente você tem motivos para acreditar que sua distribuição pode ser simétrica. Se esse valor for muito maior que o seu desvio padrão (ou MAD ou qualquer outra medida de desvio que você observe), provavelmente examinar a simetria da distribuição ainda é uma perda de tempo.
usεr11852 diz Reinstate Monic 08/04
1
70,63,56,49,42,35,28,21,14,7,0,1,4,9,16,25,36,49,64,81,100deliberadamente não é simétrico (uniforme na metade inferior, mas não na metade superior) e um gráfico de caixa colocaria a mediana (igual à média) mais próxima do quartil superior do que o quartil inferior, mas também mais próxima do mínimo que o máximo.
Henry
@ NickCox também poderia ser miligal com um erro de digitação. Isso seria quase 500 μ gal! Ou menos de g. (É claro que como mencionado acima, sem alguma escala dispersão tais como MAD, nenhuma maneira de saber o que poderia ser "significativa".)104
GeoMatt22

Respostas:

29

Sem dúvida, você foi informado de outra forma, mas média mediana não implica simetria.=

Há uma medida da assimetria baseada na média menos a mediana (a segunda assimetria de Pearson), mas pode ser 0 quando a distribuição não é simétrica (como qualquer uma das medidas comuns de assimetria).

Da mesma forma, a relação entre média e mediana não implica necessariamente uma relação semelhante entre o midhinge ( ) e a mediana. Eles podem sugerir assimetria oposta, ou um pode ser igual à mediana enquanto o outro não.(Q1+Q3)/2

Uma maneira de investigar a simetria é através de um gráfico de simetria *.

Se são as observações ordenadas do menor para o maior (as estatísticas da ordem) e M é a mediana; em seguida, um gráfico de simetria plota Y ( n ) - M vs M - Y ( 1 ) , Y ( n - 1 ) - M vs M - Y ( 2 )Y(1),Y(2),...,Y(n)MY(n)MMY(1)Y(n-1)-MMY(2) , ... e assim por diante.

* O Minitab pode fazer isso . Na verdade, eu levanto essa plotagem como uma possibilidade, porque eu as vi feitas no Minitab.

Aqui estão quatro exemplos:

Symmetry plots
Gráficos de simetria do tipo acima para amostras de quatro distribuições

(As distribuições reais foram (da esquerda para a direita, primeira linha primeiro) - Laplace, Gamma (formato = 0,8), beta (2,2) e beta (5,2). O código é de Ross Ihaka, daqui )

Com exemplos simétricos de cauda pesada, geralmente os pontos mais extremos podem estar muito longe da linha; você prestaria menos atenção à distância da linha de um ou dois pontos ao se aproximar do canto superior direito da figura.

É claro que existem outras plotagens (mencionei a plotagem de simetria não a partir de um senso particular de defesa de causa, mas porque sabia que ela já estava implementada no Minitab). Então, vamos explorar alguns outros.

Aqui estão os gráficos correspondentes que Nick Cox sugeriu nos comentários:

Skewness plots
Gráficos de assimetria, conforme sugerido por Nick Cox nos comentários

Nessas parcelas, uma tendência para cima indicaria uma cauda direita tipicamente mais pesada que a esquerda e uma tendência para baixo indicaria uma cauda esquerda tipicamente mais pesada que a direita, enquanto a simetria seria sugerida por um gráfico relativamente plano (embora talvez bastante barulhento).

Nick sugere que esse enredo é melhor (especificamente "mais direto"). Estou inclinado a concordar; a interpretação do gráfico parece consequentemente um pouco mais fácil, embora as informações nos gráficos correspondentes sejam muitas vezes bastante semelhantes (depois de subtrair a inclinação da unidade no primeiro conjunto, você obtém algo parecido com o segundo conjunto).

[É claro que nada disso nos dirá que a distribuição da qual os dados foram extraídos é simétrica; obtemos uma indicação de quão próxima da simétrica é a amostra e, portanto, podemos avaliar se os dados são razoavelmente consistentes com os de uma população quase simétrica.]

Glen_b -Reinstate Monica
fonte
3
@ user72943 Se você estiver totalmente satisfeito com isso, não se esqueça de voltar e selecionar a resposta de Glen_b. Você pode esperar um pouco para ver se alguém envia uma resposta melhor, mas Glen_b receberá mais crédito se você aceitar a resposta.
Wayne
3
+-
6
(Y(n+1-Eu)+Y(Eu))/2Eun/2,n/4,n/8, e assim por diante). De certa forma, esse gráfico é melhor do que os gráficos de simetria, na medida em que filtra um excesso de detalhes e ajuda o espectador a se concentrar em como a simetria (ou na falta dela) muda à medida que se move para a cauda. Ele tem o benefício adicional de ser imediata e facilmente computável assim que um resumo de letras n estiver disponível, que por sua vez pode ser lido diretamente de um gráfico de caule e folhas.
whuber
1
@whuber e eu estamos falando da mesma ideia subjacente. A diferença está entre plotar todas as estatísticas de ordens emparelhadas (na prática, não muito perturbadoras) ou plotar apenas algumas.
Nick Cox
1
Referências em stata-journal.com/sjpdf.html?articlenum=gr0003 e para usuários Stata na documentação para skewplot(SSC). A idéia remonta ao menos a uma sugestão atribuída a JW Tukey em Wilk, MB e Gnanadesikan, R. 1968. Métodos de plotagem de probabilidade para a análise de dados. Biometrika 55: 1-17.
Nick Cox
6

O mais fácil é calcular a assimetria da amostra . Há uma função no Minitab para isso. As distribuições simétricas terão assimetria zero. A assimetria zero não significa necessariamente simétrica, mas na maioria dos casos práticos.

Como o @NickCox observou, há mais de uma definição de assimetria. Eu uso o que é compatível com o Excel , mas você pode usar qualquer outro.

Aksakal
fonte
2
Eu acho que isso precisa ser explicado. Em particular, não existe algo como "a distorção". Existem muitas medidas e mesmo as incomuns costumam ser tão úteis ou interessantes quanto as comuns (por exemplo, momentos L). Aqueles tentados a considerar o terceiro momento padronizado como a medida (e também é o meu padrão) devem observar que, para Karl Pearson, e para muitos outros autores até o século XX, a assimetria era mais frequentemente medida em relação ao modo.
Nick Cox
Qualquer coeficiente de assimetria, além de não ter muito poder para detectar assimetrias (como você observa corretamente), também sofre por ser (extremamente) não robusto, porque se baseia no terceiro momento da amostra. Além disso, como a simetria pode ser violada de várias maneiras (e interessantes), uma única caracterização numérica da simetria é um substituto inadequado para os diagnósticos gráficos mais ricos descritos na literatura exploratória de análise de dados.
whuber
1

Centralize seus dados em torno de zero subtraindo a média da amostra. Agora divida seus dados em duas partes, a negativa e a positiva. Tome o valor absoluto dos pontos de dados negativos. Agora faça um teste de duas amostras de Kolmogorov-Smirnov comparando as duas partições. Faça sua conclusão com base no valor-p.

Soakley
fonte
0

Coloque suas observações classificadas em valores crescentes em uma coluna e depois classifique-as em valores decrescentes em outra coluna.
Em seguida, calcule o coeficiente de correlação (chame-o de Rm) entre essas duas colunas.
Calcule o índice quiral: CHI = (1 + Rm) / 2.
CHI recebe valores no intervalo [0..1].
CHI é nulo SE e SOMENTE SE sua amostra é simetricamente distribuída.
Não há necessidade do terceiro momento.
Teoria:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(a maioria dos artigos citados nessas duas páginas pode ser baixada em PDF)
Espero que ajuda, mesmo ultimamente.

Petitjean
fonte
A correlação, Rm, não seria necessariamente negativa? Não vejo como CHI poderia ser 1, a menos que Rm fosse 1, mas como col1 é classificada aumentando e col2 é classificada diminuindo, RM <= 0, significando que CHI levaria valores em [0, 0,5]. Estou esquecendo de algo?
gung - Restabelece Monica
Sim Rm não pode ser positivo e CHI não pode exceder 1/2 para distribuições de variáveis ​​aleatórias assumindo valores na linha real. De fato, o limite superior 1 vem da teoria geral que introduz o índice quiral. Faz sentido para distribuições de variáveis ​​aleatórias obter valores em um espaço mais geral. Essa teoria está fora do escopo da presente discussão, mas é apresentada nas duas páginas da web que mencionei anteriormente.
Petitjean
Registre e / ou mescle suas contas (você pode encontrar informações sobre como fazer isso na seção Minha conta da nossa Central de Ajuda ), para poder editar e comentar sua própria pergunta.
gung - Restabelece Monica