Tendência central, expansão e assimetria podem ser definidas relativamente bem, pelo menos de forma intuitiva; as medidas matemáticas padrão dessas coisas também correspondem relativamente bem às nossas noções intuitivas. Mas a curtose parece ser diferente. É muito confuso e não combina bem com nenhuma intuição sobre a forma distributiva.
Uma explicação típica da curtose em uma configuração aplicada seria esse extrato das estatísticas aplicadas para negócios e gerenciamento usando o Microsoft Excel [ 1 ] :
A curtose refere-se a quão alta é uma distribuição ou, inversamente, quão plana é. Se houver mais valores de dados nas caudas, do que o que você espera de uma distribuição normal, a curtose é positiva. Por outro lado, se houver menos valores de dados nas caudas do que o esperado em uma distribuição normal, a curtose é negativa. O Excel não pode calcular esta estatística, a menos que você tenha pelo menos quatro valores de dados.
Além da confusão entre "curtose" e "excesso de curtose" (como neste livro, é comum usar a palavra anterior para se referir ao que outros autores chamam de último), a interpretação em termos de "pico" ou "planicidade" é então atrapalhado com a mudança de atenção para quantos itens de dados estão nas caudas. Considerando "pico" e "caudas" é necessário - Kaplansky [ 2 ]Reclamou em 1945 que muitos livros didáticos da época afirmavam erroneamente que a curtose estava relacionada ao quão alto o pico da distribuição é comparado ao de uma distribuição normal, sem considerar as caudas. Mas claramente ter que considerar a forma no pico e nas caudas torna a intuição mais difícil de entender, um ponto que o extrato citado acima pula ao seguir do pico ao peso das caudas, como se esses conceitos fossem os mesmos.
Além disso, essa explicação clássica da curtose "pico e cauda" funciona apenas para distribuições simétricas e unimodais (de fato, os exemplos ilustrados nesse texto são todos simétricos). No entanto, a maneira geral "correta" de interpretar a curtose, seja em termos de "picos", "caudas" ou "ombros", tem sido contestada há décadas . [ 2 ]
Existe uma maneira intuitiva de ensinar a curtose em um ambiente aplicado que não atinja contradições ou contra-exemplos quando uma abordagem mais rigorosa é adotada? A curtose é mesmo um conceito útil no contexto desse tipo de curso de análise de dados aplicada, em oposição às aulas de estatística matemática? Se o "pico" de uma distribuição é um conceito intuitivamente útil, devemos ensiná-lo por meio de momentos L [ 7 ] ?
Herkenhoff, L. e Fogli, J. (2013). Estatísticas aplicadas para negócios e gerenciamento usando o Microsoft Excel. Nova York, NY: Springer.
Kaplansky, I. (1945). "Um erro comum em relação à curtose". Jornal da Associação Estatística Americana,40(230): 259.
Darlington, Richard B (1970). "Kurtosis é realmente 'pico'?". The American Statistician24(2): 19–22
Mouros, JJA. (1986) "O significado de curtose: Darlington reexaminado". The American Statistician40(4): 283–284
Balanda, Kevin P. e MacGillivray, HL (1988). "Kurtosis: A Critical Review". The American Statistician 42(2): 111–119
DeCarlo, LT (1997). "Sobre o significado e uso da curtose". Métodos psicológicos,2(3), 292. Chicago
Hosking, JRM (1992). "Momentos ou momentos L? Um exemplo comparando duas medidas de forma distributiva". The American Statistician46(3): 186–189
fonte
Respostas:
A curtose é realmente muito simples ... e útil. É simplesmente uma medida de valores extremos ou caudas. Não tem nada a ver com o auge - essa definição deve ser abandonada.
Aqui está um conjunto de dados:
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999
Observe que '999' é um erro externo.
Aqui está o valores z 4 do conjunto de dados:z4
0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98
Observe que apenas o outlier dá que é notavelmente diferente de 0.z4
A média desses valores de 4 é a curtose da distribuição empírica (subtraia 3, se quiser, não importa para o argumento que estou argumentando): 18.05z4
Deveria ser óbvio a partir desse cálculo que os dados próximos ao "pico" (dados não-discrepantes) contribuem quase nada para a estatística da curtose.
A curtose é útil como uma medida de valores extremos. Os valores extremos são importantes para os alunos do ensino fundamental e, portanto, a curtose deve ser ensinada. Mas a curtose não tem praticamente nada a ver com o pico, seja pontudo, achatado, bimodal ou infinito. Você pode ter todas as opções acima com pequena curtose e todas as opções acima com grande curtose. Então deveria NUNCA ser apresentado como tendo algo a ver com o pico, porque isso ensinará informações incorretas. Também torna o material desnecessário confuso e aparentemente menos útil.
Resumo:
Este artigo explica claramente por que a definição de "pico" está agora oficialmente morta.
Westfall, PH (2014). " Kurtosis as Peakedness, 1905 - 2014. RIP " The American Statistician , 68 (3), 191–195.
fonte
$
exemplo$z^4$
, é possível usar )Embora a questão seja um pouco vaga, é interessante. Em que níveis é ensinada a curtose? Lembro-me de ter sido mencionado em um curso (de mestrado) em modelos lineares (há muito tempo, baseado na primeira edição do livro de Seber). Não era um tópico importante, mas entra em tópicos como o estudo da (falta de) robustez do teste da razão de verossimilhança (teste F) da igualdade de variâncias, onde (a partir da memória) o nível correto depende assintoticamente da mesma curtose que o distribuição normal, o que é demais para assumir! Vimos um artigo (mas nunca o li com detalhes) http://www.jstor.org/stable/4615828?seq=1#page_scan_tab_contents de Oja, que tenta descobrir qual distorção, curtose e outras medidas realmente.
Por que acho isso interessante? Como tenho ensinado na américa latina, onde parece que a assimetria e a curtose são ensinadas por muitos como tópicos importantes, e tentando dizer aos estudantes de pós-graduação (muitos da economia) que a curtose é uma má medida da forma de uma distribuição (principalmente porque a variabilidade de amostragem dos quartos poderes simplesmente é muito grande), foi difícil. Eu estava tentando fazê-los usar QQplots. Então, para alguns dos comentaristas, sim, isso é ensinado em alguns lugares, provavelmente em muito!
A propósito, essa não é apenas minha opinião. A seguinte postagem no blog https://www.spcforexcel.com/knowledge/basic-statistics/are-skewness-and-kurtosis-useful-statistics contém esta citação (atribuída ao Dr. Wheeler):
Devemos ensinar técnicas melhores para estudar formas de distribuição! como QQplots (ou gráficos de distribuição relativa). E, se alguém ainda precisar de medidas numéricas, as medidas baseadas nos momentos L serão melhores. Vou citar uma passagem do artigo JR Statist Soc B (1990) 52, n. 1, pp 105--124 de JRM Hosking: "Momentos L: análise e estimativa de distribuição usando combinação linear de estatísticas de ordem", página 109:
(No momento, refiro-me ao artigo para as definições dessas medidas, todas baseadas em momentos L.). O interessante é que, a medida tradicional de curtose, baseada em quartos momentos, é não uma medida de curtose no sentido de Oja! (Editarei as referências para essa reivindicação quando a encontrar).
fonte
Na minha opinião, o coeficiente de distorção é útil para motivar os termos: distorção positiva e distorção negativa. Mas é aí que para, se seu objetivo é avaliar a normalidade. As medidas clássicas de assimetria e curtose geralmente não conseguem capturar vários tipos de desvio da normalidade. Normalmente, aconselho meus alunos a usar técnicas gráficas para avaliar se é razoável avaliar a normalidade, como um gráfico de qq ou um gráfico de probabilidade normal. Também com uma amostra de tamanho adequado, um histograma também pode ser usado. Boxplots também são úteis para identificar valores extremos ou até caudas pesadas.
Isso está de acordo com as recomendações de uma força-tarefa de 1999 da APA:
" Suposições. Você deve se esforçar para garantir que as suposições subjacentes necessárias para a análise sejam razoáveis, dados os dados. Examine os resíduos cuidadosamente. Não use testes de distribuição e índices estatísticos de forma (por exemplo, assimetria, curtose) como um substituto para examinar graficamente seus resíduos. O uso de um teste estatístico para diagnosticar problemas no ajuste do modelo tem várias deficiências. Primeiro, testes de significância diagnóstica baseados em estatísticas resumidas (como testes de homogeneidade de variância) geralmente são impraticáveis; nossos testes estatísticos de modelos geralmente são mais robustos que nossos testes estatísticos de suposições. Segundo, estatísticas como assimetria e curtose geralmente não detectam irregularidades distributivas nos resíduos. Terceiro, os testes estatísticos dependem do tamanho da amostra e, à medida que o tamanho da amostra aumenta, os testes geralmente rejeitam suposições inócuas. Em geral, não há substituto para a análise gráfica de suposições."
Referência: Wilkinson, L., & Task Force on Statistical Inference. (1999). Métodos estatísticos em revistas de psicologia: Diretrizes e explicações. American Psychologist, 54, 594-604.
fonte
Dependendo de como o curso é aplicado, a questão da precisão das estimativas pode surgir. A precisão da estimativa de variância depende fortemente da curtose. A razão pela qual isso acontece é que, com alta curtose, a distribuição permite dados raros e extremos potencialmente observáveis. Assim, o processo de geração de dados produzirá valores muito extremos em algumas amostras, e valores não tão extremos em outras. No primeiro caso, você obtém uma estimativa de variação muito grande e, no último, uma estimativa de variação pequena.
Se a interpretação ultrapassada e incorreta do "pico" fosse eliminada, e o foco fosse inteiramente dado aos discrepantes (isto é, observáveis raros e extremos), seria mais fácil ensinar a curtose nos cursos introdutórios. Mas as pessoas se enrolam tentando justificar o "pico" porque é (incorretamente) declarado dessa maneira em seus livros, e sentem falta das reais aplicações da curtose. Essas aplicações estão principalmente relacionadas a valores discrepantes e, é claro, os discrepantes são importantes nos cursos de estatística aplicada.
fonte
Francamente, não entendo por que as pessoas querem complicar coisas simples. Por que não apenas mostrar a definição (roubada de Wikipedia ):
Você pode substituir o operador de expectativa por estimadores baseados em soma1n∑ni = 1 , claro. Ajuda a discutir as unidades de medida deμ , σ2, μ4 e mostre por que o quarto momento deve ser escalado pelo quadrado da variação para tornar a curtose a medida adimensional, ou seja, um parâmetro de forma. Então, agora temos localizaçãoμ , escala σ2 e qualquer número de parâmetros para descrever a forma, como inclinação e curtose. Eu sempre começaria com equações. Supostamente fácil de entender explicações em inglês comum apenas torna tudo mais confuso. Verbosidade≠ clareza.
fonte