Uma medida robusta (não paramétrica) como Coeficiente de variação - IQR / mediana ou alternativa?

12

Para um dado conjunto de dados, o spread é frequentemente calculado como o desvio padrão ou como o IQR (intervalo inter-quartil).

Enquanto a standard deviationé normalizado (escores z, etc.) e, portanto, pode ser usado para comparar a dispersão de duas populações diferentes, esse não é o caso do IQR, pois as amostras de duas populações diferentes podem ter valores em duas escalas bem diferentes,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

O que eu busco é uma medida robusta (não paramétrica) que eu possa usar para comparar a variação dentro de diferentes populações.

Escolha 1: IQR / Median- isso seria por analogia com o coeficiente de variação , ou seja, para .σμ

Escolha 2: Range / IQR

Pergunta: Qual é a medida mais significativa para comparar a variação entre populações? E se for a Opção 1, a Opção 2 é útil para algo / significativo, ou é uma medida fundamentalmente defeituosa?

Assad Ebrahim
fonte
Obrigado pela discussão muito útil. Alguns acompanhamentos úteis - definições diferentes de quartis e, portanto, IQR (John), desvio padrão que não é de fato padronizado (Harvey) e plotagens de QQ como uma ferramenta para comparar duas distribuições (Peter). (+1 a todas as três respostas!)
Assad Ebrahim

Respostas:

13

A questão implica que o desvio padrão (DP) é de alguma forma normalizado, portanto pode ser usado para comparar a variabilidade de duas populações diferentes. Não tão. Como Peter e John disseram, essa normalização é feita como no cálculo do coeficiente de variação (CV), que é igual a DP / Média. O SD está nas mesmas unidades que os dados originais. Por outro lado, o CV é uma proporção sem unidade.

Sua escolha 1 (IQR / mediana) é análoga ao CV. Como o CV, só faria sentido quando os dados são dados de proporção. Isso significa que zero é realmente zero. Um peso zero não é peso. Um comprimento zero não é comprimento. Como um contra-exemplo, não faria sentido para a temperatura em C ou F, pois zero graus de temperatura (C ou F) não significa que não há temperatura. Simplesmente alternar entre o uso da escala C ou F daria a você um valor diferente para o CV ou para a razão IQR / mediana, o que torna essas duas razões sem sentido.

Concordo com Peter e John que sua segunda ideia (Range / IQR) não seria muito robusta para discrepantes, portanto provavelmente não seria útil.

Harvey Motulsky
fonte
2
Harvey - obrigado - você está certo, o SD não é normalizado ... Eu estava confundindo o conceito de z-scorespadronizar valores e normalizar sua posição dentro de uma distribuição em termos de média e desvio padrão, com esse problema, que trata-se de poder classificar grupos de produtos em ordem de variabilidade. Escolhendo sua resposta como a correta, porque, embora Peter e John fossem muito úteis, o seu me alertou sobre a confusão conceitual. Bom argumento sobre a opção 1 ser de uso limitado próximo à mediana 0. Felizmente, no meu problema, não preciso me preocupar com isso.
Assad Ebrahim
Eu gostaria de usar isso em um papel. Existe um bom local para o qual ele seja referenciado (livro / em algum lugar revisado por pares)?
quer
15

É importante perceber que as estatísticas mínimas e máximas geralmente não são muito boas de usar (ou seja, elas podem variar bastante de amostra para amostra e não seguem uma distribuição normal, como, por exemplo, a média devida ao Teorema do Limite Central) . Como resultado, o intervalo raramente é uma boa opção para outra coisa senão indicar o intervalo dessa amostra exata . Para que uma estatística simples e não paramétrica represente variabilidade, a faixa interquartil é muito melhor. No entanto, embora eu veja a analogia entre IQR / mediana e o coeficiente de variação, não acho que essa seja provavelmente a melhor opção.

MADM=median(|ximedian(x)|)
Repor a Monica
fonte
1
Escolha interessante de MADM/median, essencialmente a diferença do meio do valor médio. Vamos chamar isso de opção 3. Concorde com a sua avaliação da opção 1, então está pronto, obrigado. Quando você sugere 'melhor', que atributos se pode usar para comparar a Opção 2 com a Opção 3 para ver qual é melhor?
Assad Ebrahim
1
Os atributos que você usaria dependeriam de quais são suas metas para a métrica. No entanto, eu só quis dizer que é uma analogia melhor para o CoV. Nota: o terceiro quartil é a mediana dos seus dados que estão acima da mediana e o 1º q é a mediana dos abaixo, portanto, IQR / 2 a longo prazo será igual a MADM (nb, eles não são garantidos como iguais) em uma determinada amostra). O IQR variará ainda mais, em geral, do seu verdadeiro valor no pop, mas não tenho certeza de quais implicações, se houver alguma, teriam isso e a posição. errar. do IQR / 2 deve ser o mesmo do SE do MADM.
gung - Restabelece Monica
Entendo, obrigado pelo esclarecimento. Bom argumento sobre a interpretação mediana dos Q3 e Q1. Vou MADM/mediantentar ao lado IQR/median. A comparação lado a lado pode ser interessante. (+1 pela sugestão interessante)
Assad Ebrahim
6

"Escolha 1" é o que você deseja se estiver usando não paramétricos com o objetivo comum de reduzir o efeito de valores discrepantes. Mesmo se você o estiver usando por causa da inclinação, que também tem o efeito colateral de ter valores extremos na cauda, ​​isso pode ser discrepante. Sua "Escolha 2" pode ser dramaticamente afetada por valores extremos ou quaisquer valores extremos, enquanto os componentes de sua primeira equação são relativamente robustos contra eles.

[Isso dependerá um pouco do tipo de IQR que você selecionar (consulte a ajuda do R no quantil).]

John
fonte
Você está certo, eu deveria ter dito "este é análoga à definição do coeficiente de variação ... (corrigido agora na questão)!
Assad Ebrahim
Obrigado pelo comentário dependente do tipo de IQR que você seleciona ... - Eu não tinha percebido que havia tantas definições possíveis para quartis / quantis! Estou usando a função interna do Excel quartile( )e, em seguida, pegando IQR := Q3 - Q1. Meus números vêm de uma série temporal de medições semanais ao longo de um ano. As medições são medidas de desempenho industrial e, portanto, são de uma distribuição contínua. As diferentes populações são diferentes grupos de produtos. Nesta situação, eu não acho que as diferentes definições seriam muito diferentes na prática?
Assad Ebrahim
6

Prefiro não calcular medidas como o CV, porque quase sempre tenho uma origem arbitrária para a variável aleatória. Em relação à escolha de uma medida de dispersão robusta, é difícil superar a diferença média de Gini, que é a média de todos os possíveis valores absolutos de diferença entre duas observações. Para uma computação eficiente, veja, por exemplo, a função do rmspacote R. GiniMdSob normalidade, a diferença média de Gini é 0,98 tão eficiente quanto o DP para estimar a dispersão.

Frank Harrell
fonte
3

Como @ John, eu nunca ouvi falar dessa definição de coeficiente de variação. Eu não diria que se eu o usasse, confundiria as pessoas.

"Qual é mais útil?" dependerá para o que você deseja usá-lo. Certamente, a escolha 1 é mais robusta para os outliers, se você tiver certeza de que é isso que deseja. Mas qual é o objetivo de comparar as duas distribuições? O que você está tentando fazer?

Uma alternativa é padronizar as duas medidas e depois analisar os resumos.

Outro é um gráfico de QQ.

Há muitos outros também.

Peter Flom - Restabelece Monica
fonte
Bom ponto - deveria ter dito análogo ao coeficiente de variação (eu fiz a correção).
Assad Ebrahim
Meus números vêm de uma série temporal de medições semanais ao longo de um ano. As medições são medidas de desempenho industrial e, portanto, são de uma distribuição contínua. As diferentes populações são diferentes grupos de produtos e eu tenho cerca de 50 grupos de produtos. O que estou tentando fazer é poder comparar a variabilidade inerente entre diferentes grupos de produtos. Em particular, quero poder classificar os grupos de produtos em ordem decrescente de variabilidade.
Assad Ebrahim
O que você quer dizer com 'padronizar ambas as medidas e depois ver resumos'? Eu pensei que a escolha 1 os padronizava ...!
Assad Ebrahim
2

Este artigo apresenta duas boas alternativas robustas para o coeficiente de variação. Um é o intervalo interquartil dividido pela mediana, ou seja:

IQR / mediana = (Q3-Q1) / mediana

O outro é o desvio absoluto mediano dividido pela mediana, ou seja:

MAD / mediana

Eles os comparam e concluem de maneira geral que o segundo é um pouco menos variável e provavelmente melhor para a maioria dos aplicativos.

Armando
fonte