Para um dado conjunto de dados, o spread é frequentemente calculado como o desvio padrão ou como o IQR (intervalo inter-quartil).
Enquanto a standard deviation
é normalizado (escores z, etc.) e, portanto, pode ser usado para comparar a dispersão de duas populações diferentes, esse não é o caso do IQR, pois as amostras de duas populações diferentes podem ter valores em duas escalas bem diferentes,
e.g.
Pop A: 100, 67, 89, 75, 120, ...
Pop B: 19, 22, 43, 8, 12, ...
O que eu busco é uma medida robusta (não paramétrica) que eu possa usar para comparar a variação dentro de diferentes populações.
Escolha 1:
IQR / Median
- isso seria por analogia com o coeficiente de variação , ou seja, para .
Escolha 2:
Range / IQR
Pergunta: Qual é a medida mais significativa para comparar a variação entre populações? E se for a Opção 1, a Opção 2 é útil para algo / significativo, ou é uma medida fundamentalmente defeituosa?
fonte
Respostas:
A questão implica que o desvio padrão (DP) é de alguma forma normalizado, portanto pode ser usado para comparar a variabilidade de duas populações diferentes. Não tão. Como Peter e John disseram, essa normalização é feita como no cálculo do coeficiente de variação (CV), que é igual a DP / Média. O SD está nas mesmas unidades que os dados originais. Por outro lado, o CV é uma proporção sem unidade.
Sua escolha 1 (IQR / mediana) é análoga ao CV. Como o CV, só faria sentido quando os dados são dados de proporção. Isso significa que zero é realmente zero. Um peso zero não é peso. Um comprimento zero não é comprimento. Como um contra-exemplo, não faria sentido para a temperatura em C ou F, pois zero graus de temperatura (C ou F) não significa que não há temperatura. Simplesmente alternar entre o uso da escala C ou F daria a você um valor diferente para o CV ou para a razão IQR / mediana, o que torna essas duas razões sem sentido.
Concordo com Peter e John que sua segunda ideia (Range / IQR) não seria muito robusta para discrepantes, portanto provavelmente não seria útil.
fonte
z-scores
padronizar valores e normalizar sua posição dentro de uma distribuição em termos de média e desvio padrão, com esse problema, que trata-se de poder classificar grupos de produtos em ordem de variabilidade. Escolhendo sua resposta como a correta, porque, embora Peter e John fossem muito úteis, o seu me alertou sobre a confusão conceitual. Bom argumento sobre a opção 1 ser de uso limitado próximo à mediana 0. Felizmente, no meu problema, não preciso me preocupar com isso.É importante perceber que as estatísticas mínimas e máximas geralmente não são muito boas de usar (ou seja, elas podem variar bastante de amostra para amostra e não seguem uma distribuição normal, como, por exemplo, a média devida ao Teorema do Limite Central) . Como resultado, o intervalo raramente é uma boa opção para outra coisa senão indicar o intervalo dessa amostra exata . Para que uma estatística simples e não paramétrica represente variabilidade, a faixa interquartil é muito melhor. No entanto, embora eu veja a analogia entre IQR / mediana e o coeficiente de variação, não acho que essa seja provavelmente a melhor opção.
fonte
MADM/median
, essencialmente a diferença do meio do valor médio. Vamos chamar isso de opção 3. Concorde com a sua avaliação da opção 1, então está pronto, obrigado. Quando você sugere 'melhor', que atributos se pode usar para comparar a Opção 2 com a Opção 3 para ver qual é melhor?MADM/median
tentar ao ladoIQR/median
. A comparação lado a lado pode ser interessante. (+1 pela sugestão interessante)"Escolha 1" é o que você deseja se estiver usando não paramétricos com o objetivo comum de reduzir o efeito de valores discrepantes. Mesmo se você o estiver usando por causa da inclinação, que também tem o efeito colateral de ter valores extremos na cauda, isso pode ser discrepante. Sua "Escolha 2" pode ser dramaticamente afetada por valores extremos ou quaisquer valores extremos, enquanto os componentes de sua primeira equação são relativamente robustos contra eles.
[Isso dependerá um pouco do tipo de IQR que você selecionar (consulte a ajuda do R no quantil).]
fonte
quartile( )
e, em seguida, pegandoIQR := Q3 - Q1
. Meus números vêm de uma série temporal de medições semanais ao longo de um ano. As medições são medidas de desempenho industrial e, portanto, são de uma distribuição contínua. As diferentes populações são diferentes grupos de produtos. Nesta situação, eu não acho que as diferentes definições seriam muito diferentes na prática?Prefiro não calcular medidas como o CV, porque quase sempre tenho uma origem arbitrária para a variável aleatória. Em relação à escolha de uma medida de dispersão robusta, é difícil superar a diferença média de Gini, que é a média de todos os possíveis valores absolutos de diferença entre duas observações. Para uma computação eficiente, veja, por exemplo, a função do
rms
pacote R.GiniMd
Sob normalidade, a diferença média de Gini é 0,98 tão eficiente quanto o DP para estimar a dispersão.fonte
Como @ John, eu nunca ouvi falar dessa definição de coeficiente de variação. Eu não diria que se eu o usasse, confundiria as pessoas.
"Qual é mais útil?" dependerá para o que você deseja usá-lo. Certamente, a escolha 1 é mais robusta para os outliers, se você tiver certeza de que é isso que deseja. Mas qual é o objetivo de comparar as duas distribuições? O que você está tentando fazer?
Uma alternativa é padronizar as duas medidas e depois analisar os resumos.
Outro é um gráfico de QQ.
Há muitos outros também.
fonte
Este artigo apresenta duas boas alternativas robustas para o coeficiente de variação. Um é o intervalo interquartil dividido pela mediana, ou seja:
IQR / mediana = (Q3-Q1) / mediana
O outro é o desvio absoluto mediano dividido pela mediana, ou seja:
MAD / mediana
Eles os comparam e concluem de maneira geral que o segundo é um pouco menos variável e provavelmente melhor para a maioria dos aplicativos.
fonte