Espero ter mais informações sobre os quatro tipos de inclinação dessa comunidade.
Os tipos aos quais me refiro são mencionados na página de ajuda http://www.inside-r.org/packages/cran/e1071/docs/skewness .
O método antigo não foi mencionado na página de ajuda, mas eu o incluo.
require(moments)
require(e1071)
x=rnorm(100)
n=length(x)
hist(x)
###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page
###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)
###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); } #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)
###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...
Aqui está o artigo ao qual o autor do e1071 se refere: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes e CA Gill (1998), Comparando medidas de assimetria e curtose da amostra.
Pela minha leitura desse artigo, eles sugerem que o tipo # 3 tem o menor erro.
Aqui estão exemplos da assimetria do código acima:
e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532
Também notei que o autor do e1071 escreveu a função de inclinação diferente das notas na página de ajuda. Observe o sqrt:
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page
Alguma idéia de por que o sqrt (n) está na primeira equação? Qual equação lida melhor com o estouro / o estouro? Alguma outra idéia de por que são diferentes (mas produzem os mesmos resultados)?
Respostas:
Vamos começar com o que você descreve como "um método antigo"; essa é a segunda distorção de Pearson, ou distorção mediana ; de fato, a distorção de momento e que são amplamente da mesma safra (a distorção mediana é na verdade um pouco mais nova, já que a distorção de momento precede os esforços de Pearson).
Uma pequena discussão sobre parte da história pode ser encontrada aqui ; essa postagem também pode esclarecer algumas de suas outras perguntas.
Se você pesquisar em nosso site usando a segunda distorção da Pearson, encontrará algumas postagens que contêm algumas discussões sobre o comportamento dessa medida.
Não é realmente mais estranho do que o momento que a distorção mede em minha mente; os dois às vezes fazem coisas estranhas que não correspondem às expectativas das pessoas em relação à medida da assimetria.
Todos os três são simplesmente variações ligeiramente diferentes na assimetria do terceiro momento. Em amostras muito grandes, não há realmente nenhuma diferença que você usa. Em amostras menores, todos eles apresentam vieses e variações ligeiramente diferentes.
As formas discutidas aqui não esgotam as definições de assimetria (já vi cerca de uma dúzia, acho - o artigo da Wikipedia lista algumas, mas mesmo isso não cobre toda a gama), nem mesmo as definições relacionadas à terceira assimetria de momento, da qual já vi mais do que as três que você cria aqui.
Por que existem muitas medidas de assimetria?
Então (tratando todas essas distorções do terceiro momento como uma por um momento) por que tantas distorções diferentes? Em parte é porque a distorção como noção é realmente muito difícil de definir. É uma coisa escorregadia que você não pode realmente atribuir a um único número. Como resultado, todas as definições são menos que adequadas de alguma maneira, mas, no entanto, geralmente concordam com nosso amplo senso do que achamos que uma medida de assimetria deve fazer. As pessoas continuam tentando criar melhores definições, mas as medidas antigas, como os teclados QWERTY, não vão a lugar algum.
Por que existem várias medidas de assimetria baseadas no terceiro momento?
Quanto ao porquê tantas distorções do terceiro momento, isso é simplesmente porque há mais de uma maneira de transformar uma medida populacional em uma amostra. Vimos duas rotas baseadas em momentos e uma baseada em cumulantes. Poderíamos construir ainda mais; podemos, por exemplo, tentar obter uma medida imparcial (amostra pequena) sob alguma suposição distributiva, uma medida de erro quadrático médio mínimo ou alguma outra quantidade desse tipo.
Você pode encontrar algumas das postagens no site relacionadas à iluminação distorcida; existem alguns que mostram exemplos de distribuições que não são simétricas, mas que têm zero assimetria no terceiro momento. Alguns mostram que a distorção mediana de Pearson e a distorção do terceiro momento podem ter sinais opostos.
Aqui estão os links para alguns posts relacionados à assimetria:
A média = mediana implica que uma distribuição unimodal é simétrica?
Nos dados inclinados para a esquerda, qual é a relação entre média e mediana?
como determinar a assimetria do histograma com valores discrepantes?
fonte