A diferença é estatística resumida: coeficiente de Gini e desvio padrão

12

Existem várias estatísticas de resumo. Quando você deseja descrever a dispersão de uma distribuição, pode usar, por exemplo, o desvio padrão ou o coeficiente de Gini .

Eu sei que o desvio padrão é baseado na tendência central, ou seja, desvio da média, e o coeficiente de Gini é uma medida geral da dispersão. Eu também sei que o coeficiente de Gini tem um limite inferior e superior [0 1], e o desvio padrão não . É bom saber essas propriedades, mas que idéias o desvio padrão pode dar que o Gini não pode e vice-versa? Se eu tivesse que optar por usar um dos dois, quais são as vantagens de usar um em comparação com o outro quando se trata de ser informativo e perspicaz.

Olivier_s_j
fonte
11
Você teve uma escolha estranha de tags. Eu os editei.
Ameba

Respostas:

8

Duas coisas a considerar

O Gini é independente de escala, enquanto o SD está nas unidades originais

Suponha que tenhamos uma medida delimitada acima e abaixo. O SD assume seu valor máximo se meias medições estiverem em cada limite, enquanto Gini assume o máximo: um está em um limite e todo o resto no outro.

mdewey
fonte
Você acha que poderíamos expandir o uso de Gini para explicar a concentração / heterogeneidade na metanálise? Poderia ser interessante como um meio de quantificar a concentração na heterogeneidade ...
Joe_74
11
Desde a suposição é que os efeitos são normais, então não. Mas eu acho que uma discussão mais completa é off-topic neste segmento
mdewey
@mdewey Essa última frase foi perspicaz e me ajudou mais. THX!
Olivier_s_j
@mdewey Eu testei isso sozinho com algum código, mas existe uma publicação em algum lugar discutindo isso? Ou uma prova? (Estou me referindo à última sentença) #
1919 Olivier_s_j
@Ojtwist o artigo da Wikipedia en.wikipedia.org/wiki/Gini_coefficient é útil.
Mdewey 19/05
10

O coeficiente de Gini é invariável em escala e é limitado, o desvio padrão invariável a uma mudança e ilimitado, portanto é difícil comparar diretamente. Agora você pode definir uma versão invariável da escala do desvio padrão, dividindo pela média (coeficiente de variação).

No entanto, o índice de Gini ainda é baseado em valores, o segundo em valores ao quadrado, portanto, você pode esperar que o segundo seja mais influenciado por valores discrepantes (valores excessivamente baixos ou altos). Isso pode ser encontrado nas medidas de desigualdade de renda , F De Maio, 2007:

Essa medida da desigualdade de renda é calculada dividindo o desvio padrão da distribuição de renda por sua média. Distribuições de renda mais iguais terão desvios-padrão menores; como tal, o currículo será menor em sociedades mais iguais. Apesar de ser uma das medidas mais simples de desigualdade, o uso do CV tem sido bastante limitado na literatura de saúde pública e não foi destaque em pesquisas sobre a hipótese de desigualdade de renda. Isso pode ser atribuído a importantes limitações da medida CV: (1) não possui um limite superior, diferentemente do coeficiente de Gini, 18 dificultando a interpretação e a comparação; e (2) os dois componentes do CV (a média e o desvio padrão) podem ser extremamente influenciados por valores de renda anomalamente baixos ou altos. Em outras palavras,

Portanto, o coeficiente de variação é menos robusto e ainda ilimitado. Para dar um passo adiante, você pode remover a média e dividir pelo desvio absoluto ( ). Até um fator, você acaba com uma relação de norma , que pode ser limitada, pois, para um vetor de ponto , .1 / 2 N 2 ( x ) 1 ( x ) 1(xm)=|xnm|1/2N2(x)1(x)N2(x)

Agora você tem, com o índice de Gini e a proporção da norma , duas medidas interessantes de dispersão da distribuição, invariável e limitado pela escala.1/2

Eles são comparados em Comparing Measures of Sparsity , 2009. Testado contra diferentes propriedades naturais da escarsidade (Robin Hood, Escalada, Maré Ascendente, Clonagem, Bill Gates e Bebês), o índice Gini se destaca como o melhor. Mas sua forma dificulta o uso como uma função de perda, e versões regularizadas do1/2 podem ser usadas nesse contexto.

Portanto, a menos que você queira caracterizar uma distribuição quase gaussiana, se desejar medir uma dispersão, use o índice Gini. Se você deseja promover a dispersão entre modelos diferentes, tente uma proporção dessa norma.

Palestra adicional: Diferença média de Gini: uma medida superior de variabilidade para distribuições não normais , Shlomo Yitzhaki, 2003, cujo resumo pode parecer interessante:

De todas as medidas de variabilidade, a variação é de longe a mais popular. Este artigo argumenta que a Diferença Média de Gini (GMD), um índice alternativo de variabilidade, compartilha muitas propriedades com a variação, mas pode ser mais informativo sobre as propriedades das distribuições que partem da normalidade

Laurent Duval
fonte
1

O desvio padrão tem uma escala (digamos, ° K, metros, mmHg, ...). Geralmente, isso influencia nosso julgamento de sua magnitude. Portanto, tendemos a preferir o coeficiente de variação ou, melhor ainda (em amostras finitas), o erro padrão.

O coeficiente de Gini é construído sobre valores percentuais (sem escala) e, portanto, não possui escala em sua própria unidade (como, por exemplo, o número Mach). Use o coeficiente de Gini se desejar comparar a igualdade de ações com algo comum (ações de 100%). Observe que, para este aplicativo, o desvio padrão também pode ser usado; portanto, sua pergunta para comparar vantagens e desvantagens se aplica apenas a esse tipo de aplicativo. Nesse caso, o desvio padrão também seria limitado a . Ambos os indicadores dependeriam do número de compartilhamentos (não negativos), mas em uma direção oposta: Gini aumenta à medida que o número aumenta, o desvio padrão diminui.[0,1]

Horst Grünbusch
fonte