Quer dizer DP ou mediana MAD para resumir uma variável altamente distorcida?

11

Estou trabalhando em dados altamente assimétricos; portanto, estou usando a mediana em vez da média para resumir a tendência central. Eu gostaria de ter uma medida de dispersão Embora muitas vezes eu vejo pessoas relatando média desvio padrão± ou mediana quartis± para resumir a tendência central, é ok para relatar mediana dispersão absoluta mediana (MAD)± ? Existem problemas em potencial com essa abordagem?

Eu consideraria essa abordagem mais compacta e intuitiva do que relatar quartis inferiores e superiores, especialmente em grandes tabelas cheias de figuras.

Mulone
fonte
3
Acho que média, mediana, quartis inferior e superior juntos descreveriam os dados melhor. Você pode encontrar outras estatísticas descritivas aqui .
1
Quero ser o mais conciso possível: a mediana + 2 quartis está ok?
Mulone 24/05
4
MAD é uma estatística excelente para expressar a dispersão de um lote de dados - é mais resistente a valores discrepantes mesmo que a faixa interquartil. Mas você pode pensar sobre o que a mediana MAD realmente significaria e como seu público-alvo deve interpretá-lo. Não possui as mesmas propriedades assintóticas ou semelhantes a desigualdade de Chebeyshev da média SD. Talvez seja por isso que essas expressões raramente sejam usadas, se é que alguma vez foram. ±±
whuber
1
Eu sempre pensei que MAD significava desvio absoluto médio do analógico para mse, que é erro quadrático médio. é a média dos desvios absolutos da média e não da mediana. Estou certo ou estou ficando louco?
Michael R. Chernick 24/05
2
A imagem é composta por mil palavras; se possível, o histograma é muito poderoso.
Bdonovic 15/03/19

Respostas:

7

Eu não acho que mediana mad é apropriada em geral. ±

Você pode criar facilmente distribuições onde 50% dos dados são fracamente inferiores à mediana e 50% dos dados estão espalhados muito maiores que a mediana - por exemplo, (4.9,4.9,4.9,4.9,5,1000000,1000000,100000 , 1000000). A notação 5 0.10 parece sugerir que há alguma massa ao redor (mediana + mad ~ = 5.10), e isso nem sempre é o caso, e você não tem idéia de que há uma grande massa perto de 1000000.±

Os quartis / quantis dão uma idéia muito melhor da distribuição ao custo de um número extra - (4.9,5.0,1000000.0). Duvido que seja inteiramente uma coincidência que a assimetria seja o terceiro momento e que pareço precisar de três números / dimensões para visualizar intuitivamente uma distribuição distorcida.

Dito isto, não há nada errado com isso por si só - estou apenas discutindo intuições e legibilidade aqui. Se você o estiver usando para você ou sua equipe, enlouqueça. Mas acho que confundiria uma audiência ampla.

Patrick Caldon
fonte
2
(+1) Gostaria de acrescentar que a definição de assimetria em termos do terceiro momento não é a mais aceita atualmente, pois só pode ser aplicada em distribuições com rabos leves. Definições mais modernas de assimetria são baseadas em quantis, algumas delas podem ser encontradas aqui .
1
@amoeba É? A página da Wikipedia para MAD a define como Mediana (| Xi - Mediana (X) |), que é 0,1 com os dados fornecidos.
Upper_Case 16/03/19
@Upper_Case Obrigado. Eu estava errado (esqueci 5-5 = 0 termo). Excluirei meu comentário acima para não confundir futuros leitores!
Ameba diz Reinstate Monica
4

O uso do MAD equivale a supor que a distribuição subjacente é simétrica (desvios acima da mediana e abaixo da mediana são considerados igualmente). Se os dados estão distorcidos, isso está claramente errado: isso levará você a superestimar a verdadeira variabilidade dos dados.

Felizmente, você pode escolher uma das várias alternativas para os loucos que são igualmente robustas, quase tão fáceis de calcular e que não assumem simetria.

Dê uma olhada em Rousseeuw e Croux 1992 . Esses conceitos são bem explicados aqui e implementados aqui . Esses dois estimadores são membros da chamada classe de estatística U, para a qual existe uma teoria bem desenvolvida.

user603
fonte
1

"Neste artigo, um índice mais preciso de assimetria é estudado. Especificamente, o uso da variância esquerda e direita é proposto e um índice de assimetria baseado nelas é introduzido. Vários exemplos demonstram sua utilidade. A questão de avaliar com mais precisão a dispersão de dados sobre a média emerge em todas as distribuições de probabilidade não simétricas. Quando a distribuição da população é não simétrica, a média e a variação (ou desvio padrão) de um conjunto de dados não fornecem uma ideia precisa da distribuição dos dados, especialmente forma e simetria. Argumenta-se que a média, a variação esquerda proposta (ou desvio padrão esquerdo) e a variação direita (ou desvio padrão direito) descrevem o conjunto de dados com mais precisão ".

Ligação

deepML
fonte
3
Você citou o resumo de um artigo e forneceu algo que se assemelha a uma URL (tomei a liberdade de corrigir o link). Esse não é realmente o tipo de resposta que estamos procurando aqui; Convido você a editar sua resposta e tentar adicionar alguns comentários sobre o porquê desse link ajudar a responder à pergunta. A resposta seria muito melhorada se você explicasse como esse índice de assimetria está relacionado à tendência central média e à MAD.
MånsT