Domesticar a inclinação… Por que existem tantas funções de inclinação?

Espero ter mais informações sobre os quatro tipos de inclinação dessa comunidade.

Os tipos aos quais me refiro são mencionados na página de ajuda http://www.inside-r.org/packages/cran/e1071/docs/skewness .

O método antigo não foi mencionado na página de ajuda, mas eu o incluo.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

Aqui está o artigo ao qual o autor do e1071 se refere: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes e CA Gill (1998), Comparando medidas de assimetria e curtose da amostra.

Pela minha leitura desse artigo, eles sugerem que o tipo # 3 tem o menor erro.

Aqui estão exemplos da assimetria do código acima:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

Também notei que o autor do e1071 escreveu a função de inclinação diferente das notas na página de ajuda. Observe o sqrt:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

Alguma idéia de por que o sqrt (n) está na primeira equação? Qual equação lida melhor com o estouro / o estouro? Alguma outra idéia de por que são diferentes (mas produzem os mesmos resultados)?

skewness Chris
fonte

Sua pergunta menciona "os quatro tipos de inclinação" ... mas depois fornece um link e inicia um monte de código (qual idioma você nem menciona). Para que as pessoas não precisem ler um link para descobrir o que você está perguntando, e para o benefício das pessoas que não lêem R e daqueles que consideram a leitura do código inútil na transmissão de entendimento, ajudaria a definir quais quatro medidas de assimetria que você quer dizer antes (ou preferencialmente em vez de) de uma faixa de código. [Quando você diz "os quatro", em vez de dizer "estes quatro", por que você acha que existem exatamente quatro em vez de cinco ou sete ou algum outro número?]

Glen_b -Reinstata Monica

Tentei dar alguma forma de resposta às perguntas específicas que encontrei na sua postagem e resolvi várias questões ao longo do caminho, mas fora disso, "esperando ter mais informações" é muito vago para responder. Você consegue identificar com mais clareza sobre quais coisas você deseja obter informações? Há muitas perguntas em nosso site relacionadas à assimetria.

Glen_b -Reinstala Monica

Obrigado Glen, por suas postagens. Incluí R para fins ilustrativos e para mostrar as fórmulas. Também não sei látex. :( #

285

Respostas:

Vamos começar com o que você descreve como "um método antigo"; essa é a segunda distorção de Pearson, ou distorção mediana ; de fato, a distorção de momento e que são amplamente da mesma safra (a distorção mediana é na verdade um pouco mais nova, já que a distorção de momento precede os esforços de Pearson).

Uma pequena discussão sobre parte da história pode ser encontrada aqui ; essa postagem também pode esclarecer algumas de suas outras perguntas.

Se você pesquisar em nosso site usando a segunda distorção da Pearson, encontrará algumas postagens que contêm algumas discussões sobre o comportamento dessa medida.

Não é realmente mais estranho do que o momento que a distorção mede em minha mente; os dois às vezes fazem coisas estranhas que não correspondem às expectativas das pessoas em relação à medida da assimetria.

$b_1$

$s_n$ $s_{n-1}$ $g_1$

$G_1$

$b_1$ $\frac{n^2}{(n-1)(n-2)}$ $n,(n-1)$ $(n-2)$

Todos os três são simplesmente variações ligeiramente diferentes na assimetria do terceiro momento. Em amostras muito grandes, não há realmente nenhuma diferença que você usa. Em amostras menores, todos eles apresentam vieses e variações ligeiramente diferentes.

As formas discutidas aqui não esgotam as definições de assimetria (já vi cerca de uma dúzia, acho - o artigo da Wikipedia lista algumas, mas mesmo isso não cobre toda a gama), nem mesmo as definições relacionadas à terceira assimetria de momento, da qual já vi mais do que as três que você cria aqui.

Por que existem muitas medidas de assimetria?

Então (tratando todas essas distorções do terceiro momento como uma por um momento) por que tantas distorções diferentes? Em parte é porque a distorção como noção é realmente muito difícil de definir. É uma coisa escorregadia que você não pode realmente atribuir a um único número. Como resultado, todas as definições são menos que adequadas de alguma maneira, mas, no entanto, geralmente concordam com nosso amplo senso do que achamos que uma medida de assimetria deve fazer. As pessoas continuam tentando criar melhores definições, mas as medidas antigas, como os teclados QWERTY, não vão a lugar algum.

Por que existem várias medidas de assimetria baseadas no terceiro momento?

Quanto ao porquê tantas distorções do terceiro momento, isso é simplesmente porque há mais de uma maneira de transformar uma medida populacional em uma amostra. Vimos duas rotas baseadas em momentos e uma baseada em cumulantes. Poderíamos construir ainda mais; podemos, por exemplo, tentar obter uma medida imparcial (amostra pequena) sob alguma suposição distributiva, uma medida de erro quadrático médio mínimo ou alguma outra quantidade desse tipo.

Você pode encontrar algumas das postagens no site relacionadas à iluminação distorcida; existem alguns que mostram exemplos de distribuições que não são simétricas, mas que têm zero assimetria no terceiro momento. Alguns mostram que a distorção mediana de Pearson e a distorção do terceiro momento podem ter sinais opostos.

Aqui estão os links para alguns posts relacionados à assimetria:

A média = mediana implica que uma distribuição unimodal é simétrica?

Nos dados inclinados para a esquerda, qual é a relação entre média e mediana?

como determinar a assimetria do histograma com valores discrepantes?

$b_1$

$\sqrt{n} \cdot \frac{\sum{(x-\bar{x})^3}}{(\sum({x - \bar{x}})^2)^{3/2}}\qquad$ #from e1071 :: fonte de assimetria

$\frac{\sum(x - \bar{x})^3/n}{(\sum(x - \bar{x})^2/n)^{3/2}}\qquad$ #from moments e página de ajuda do e1071

$\frac32$ $n$

Glen_b -Reinstate Monica
fonte