Quero saber qual é o intervalo dos valores de assimetria e curtose para os quais os dados são considerados normalmente distribuídos.
Eu li muitos argumentos e, na maioria das vezes, tenho respostas confusas. Alguns dizem que a assimetria e para a curtose é um intervalo aceitável para distribuição normal. Alguns dizem que para assimetria é um intervalo aceitável. Encontrei uma discussão detalhada aqui: Qual é a faixa aceitável de assimetria e curtose para a distribuição normal de dados sobre esse problema. Mas não consegui encontrar nenhuma declaração decisiva.
Qual é a base para decidir esse intervalo? Esta é uma escolha subjetiva? Ou existe alguma explicação matemática por trás desses intervalos?
normal-distribution
skewness
kurtosis
Cavaleiro das Trevas
fonte
fonte
Respostas:
O post original perde alguns pontos importantes: (1) Nenhum "dado" pode ser normalmente distribuído. Os dados são necessariamente discretos. A pergunta válida é: "o processo que produziu os dados é um processo normalmente distribuído?" Mas (2) a resposta para a segunda pergunta é sempre "não", independentemente do que qualquer teste estatístico ou outra avaliação baseada em dados lhe dê. Os processos normalmente distribuídos produzem dados com continuidade infinita, simetria perfeita e probabilidades especificadas com precisão dentro dos intervalos de desvio padrão (por exemplo, 68-95-99.7), nenhuma das quais jamais é exatamente verdadeira para processos que dão origem aos dados que podemos medir com o que quer que seja dispositivo de medição que nós humanos podemos usar.
Portanto, você nunca pode considerar que os dados sejam normalmente distribuídos, nem o processo que produziu os dados como um processo precisamente distribuído normalmente. Mas, como Glen_b indicou, isso pode não importar muito, dependendo do que você está tentando fazer com os dados.
As estatísticas de assimetria e curtose podem ajudar a avaliar certos tipos de desvios da normalidade do seu processo de geração de dados. São estatísticas altamente variáveis, no entanto. Os erros padrão dados acima não são úteis porque são válidos apenas sob a normalidade, o que significa que são úteis apenas como teste de normalidade, um exercício essencialmente inútil. Seria melhor usar o bootstrap para encontrar SE's, embora sejam necessárias amostras grandes para obter SE's precisos.
Além disso, a curtose é muito fácil de interpretar, ao contrário do post acima. É a média (ou valor esperado) dos valores de Z, cada um levado para a quarta potência. Grande | Z | os valores são discrepantes e contribuem fortemente para a curtose. Pequeno | Z | valores, onde está o "pico" da distribuição, fornecem valores Z ^ 4 que são minúsculos e não contribuem essencialmente com nada para a curtose. Eu provei no meu artigo https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ que a curtose é muito bem aproximada pela média dos valores de Z ^ 4 * I (| Z |> 1). Portanto, a curtose mede a propensão do processo de geração de dados a produzir outliers.
fonte
O que você parece estar pedindo aqui é um erro padrão para a assimetria e curtose de uma amostra retirada de uma população normal. Note-se que existem várias maneiras de estimar coisas como assimetria ou fat-tailedness (curtose), que obviamente vai afetar o que o erro padrão será. As medidas mais comuns em que as pessoas pensam são mais conhecidas tecnicamente como o terceiro e o quarto momentos padronizados.
Vale a pena considerar algumas das complexidades dessas métricas. A estatística de assimetria típica não é uma medida de simetria da maneira como as pessoas suspeitam (cf, aqui ). A curtose pode ser ainda mais complicada. Tem um intervalo possível de , onde a distribuição normal tem uma curtose de . Como resultado, as pessoas geralmente usam a "curtose excessiva", que é a . Então o intervalo é . No entanto, na prática, a curtose é delimitada por baixo por e por cima por uma função do tamanho da sua amostra (aproximadamente ). Além disso, a curtose é mais difícil de interpretar quando a assimetria não é[1,∞) 3 kurtosis−3 [−2,∞) skewness2+1 24/N 0 . Esses fatos tornam mais difícil o uso do que as pessoas esperam.
Para o que vale a pena, os erros padrão são:
Deixando de lado a questão de saber se podemos diferenciar a assimetria e curtose de nossa amostra do que seria esperado de uma população normal, você também pode perguntar qual é o tamanho do desvio de . As regras básicas que ouvi (pelo que valem a pena) são geralmente:0
Uma boa visão geral introdutória da assimetria e curtose pode ser encontrada aqui .
fonte
[No que se segue, suponho que você esteja propondo algo como "verificar a assimetria e a curtose da amostra, se ambas estiverem dentro de alguns intervalos pré-especificados, use algum procedimento teórico normal, caso contrário, use outra coisa".]
Há uma série de aspectos nisso, dos quais teremos espaço apenas para algumas considerações. Começarei listando o que acho que as questões importantes podem ser examinadas antes de começarmos a usar um critério como este. Tentarei voltar e escrever um pouco sobre cada item posteriormente:
Questões a considerar
Quão mal os vários tipos de não normalidade são importantes para o que estamos fazendo?
Quão difícil é captar esses desvios usando faixas na assimetria e curtose da amostra?
Uma coisa com a qual concordo na proposta - analisa um par de medidas relacionadas ao tamanho do efeito ( quanto desvio da normalidade) e não à significância. Nesse sentido, aproximar-se-á de abordar algo útil que um teste formal de hipóteses, que tenderá a rejeitar mesmo desvios triviais em grandes amostras, enquanto oferece o falso consolo da não rejeição de desvios muito maiores (e mais impactantes) em amostras pequenas. (Os testes de hipótese abordam a questão errada aqui.)
É claro que em amostras pequenas, ainda é problemático no sentido de que as medidas são muito "barulhentas", para que ainda possamos ser desviados para lá (um intervalo de confiança nos ajudará a ver o quão ruim pode ser).
Não nos diz como um desvio na assimetria ou curtose se relaciona com problemas com o que desejamos normalidade - e procedimentos diferentes podem ser bem diferentes em suas respostas à não normalidade.
Não nos ajuda se nosso desvio da normalidade é de um tipo para o qual a distorção e a curtose serão cegas.
Se você estiver usando essas estatísticas de amostra como base para decidir entre dois procedimentos, qual é o impacto nas propriedades da inferência resultante (por exemplo, para um teste de hipótese, como é o seu nível de significância e poder ao fazer isso?)
Há um número infinito de distribuições que possuem exatamente a mesma assimetria e curtose da distribuição normal, mas são distintamente não normais. Eles nem precisam ser simétricos! Como a existência de tais coisas afeta o uso de tais procedimentos? A empresa está condenada desde o início?
Quanta variação na assimetria e curtose da amostra você pôde ver nas amostras extraídas de distribuições normais? (Que proporção de amostras normais acabaríamos descartando por alguma regra?)
[Em parte, esta questão está relacionada a algumas das questões discutidas em sua resposta.]
Pode haver algo melhor para fazer?
Por fim, se depois de considerar todas essas questões decidirmos que devemos seguir em frente e usar essa abordagem, chegamos a considerações decorrentes da sua pergunta:
Quais são os bons limites a serem observados na assimetria e na curtose para vários procedimentos? Com quais variáveis precisamos nos preocupar em quais procedimentos?
(por exemplo, se estivermos fazendo regressão, observe que é incorreto lidar com qualquer IV e até o DV bruto dessa maneira - presume-se que nenhum deles tenha sido extraído de uma distribuição normal comum)
Voltarei e acrescentarei algumas idéias, mas quaisquer comentários / perguntas que você tiver entretanto poderão ser úteis.
fonte