Estou trabalhando em dados altamente assimétricos; portanto, estou usando a mediana em vez da média para resumir a tendência central. Eu gostaria de ter uma medida de dispersão Embora muitas vezes eu vejo pessoas relatando média desvio padrão ou mediana quartis para resumir a tendência central, é ok para relatar mediana dispersão absoluta mediana (MAD) ? Existem problemas em potencial com essa abordagem?
Eu consideraria essa abordagem mais compacta e intuitiva do que relatar quartis inferiores e superiores, especialmente em grandes tabelas cheias de figuras.
Respostas:
Eu não acho que mediana mad é apropriada em geral.±
Você pode criar facilmente distribuições onde 50% dos dados são fracamente inferiores à mediana e 50% dos dados estão espalhados muito maiores que a mediana - por exemplo, (4.9,4.9,4.9,4.9,5,1000000,1000000,100000 , 1000000). A notação 5 0.10 parece sugerir que há alguma massa ao redor (mediana + mad ~ = 5.10), e isso nem sempre é o caso, e você não tem idéia de que há uma grande massa perto de 1000000.±
Os quartis / quantis dão uma idéia muito melhor da distribuição ao custo de um número extra - (4.9,5.0,1000000.0). Duvido que seja inteiramente uma coincidência que a assimetria seja o terceiro momento e que pareço precisar de três números / dimensões para visualizar intuitivamente uma distribuição distorcida.
Dito isto, não há nada errado com isso por si só - estou apenas discutindo intuições e legibilidade aqui. Se você o estiver usando para você ou sua equipe, enlouqueça. Mas acho que confundiria uma audiência ampla.
fonte
O uso do MAD equivale a supor que a distribuição subjacente é simétrica (desvios acima da mediana e abaixo da mediana são considerados igualmente). Se os dados estão distorcidos, isso está claramente errado: isso levará você a superestimar a verdadeira variabilidade dos dados.
Felizmente, você pode escolher uma das várias alternativas para os loucos que são igualmente robustas, quase tão fáceis de calcular e que não assumem simetria.
Dê uma olhada em Rousseeuw e Croux 1992 . Esses conceitos são bem explicados aqui e implementados aqui . Esses dois estimadores são membros da chamada classe de estatística U, para a qual existe uma teoria bem desenvolvida.
fonte
"Neste artigo, um índice mais preciso de assimetria é estudado. Especificamente, o uso da variância esquerda e direita é proposto e um índice de assimetria baseado nelas é introduzido. Vários exemplos demonstram sua utilidade. A questão de avaliar com mais precisão a dispersão de dados sobre a média emerge em todas as distribuições de probabilidade não simétricas. Quando a distribuição da população é não simétrica, a média e a variação (ou desvio padrão) de um conjunto de dados não fornecem uma ideia precisa da distribuição dos dados, especialmente forma e simetria. Argumenta-se que a média, a variação esquerda proposta (ou desvio padrão esquerdo) e a variação direita (ou desvio padrão direito) descrevem o conjunto de dados com mais precisão ".
Ligação
fonte