Faixa de valores de assimetria e curtose para distribuição normal

Quero saber qual é o intervalo dos valores de assimetria e curtose para os quais os dados são considerados normalmente distribuídos.

Eu li muitos argumentos e, na maioria das vezes, tenho respostas confusas. Alguns dizem que a assimetria e para a curtose é um intervalo aceitável para distribuição normal. Alguns dizem que para assimetria é um intervalo aceitável. Encontrei uma discussão detalhada aqui: Qual é a faixa aceitável de assimetria e curtose para a distribuição normal de dados sobre esse problema. Mas não consegui encontrar nenhuma declaração decisiva. $(-1,1)$ $(-2,2)$ $(-1.96,1.96)$

Qual é a base para decidir esse intervalo? Esta é uma escolha subjetiva? Ou existe alguma explicação matemática por trás desses intervalos?

normal-distribution skewness kurtosis Cavaleiro das Trevas
fonte

O que ou quem define "aceitável"?

Glen_b -Reinstate Monica

Esta é uma boa pergunta. Eu não tenho uma resposta clara para isso.

Dark_Knight

Estou correto ao pensar que, por trás de sua pergunta, há algum método implícito, algo como: "Antes de estimar esse modelo / executar esse teste, verifique a assimetria e a curtose da amostra. Se ambos estiverem dentro de alguns intervalos pré-especificados, use algum procedimento normal da teoria, caso contrário, use outra coisa ". ...?

Glen_b -Reinstala Monica 14/11

Em caso afirmativo, quais são os procedimentos com premissas normais nas quais você pode usar essa abordagem? Em quais variáveis você verificaria isso? Quais são os procedimentos alternativos que você usaria se concluísse que eles não eram "aceitáveis" por algum critério?

Glen_b -Reinstate Monica

Além disso - e isso pode ser importante para o contexto, principalmente nos casos em que é oferecido algum raciocínio para a escolha de alguns limites - você pode incluir quaisquer aspas com intervalos como esses que possam ser alcançadas (especialmente onde os intervalos sugeridos são bastante diferente)? Uma coisa que seria útil saber a partir desse contexto - para que situações eles estão usando esse tipo de coisa?

Glen_b -Reinstala Monica 14/11

Respostas:

O post original perde alguns pontos importantes: (1) Nenhum "dado" pode ser normalmente distribuído. Os dados são necessariamente discretos. A pergunta válida é: "o processo que produziu os dados é um processo normalmente distribuído?" Mas (2) a resposta para a segunda pergunta é sempre "não", independentemente do que qualquer teste estatístico ou outra avaliação baseada em dados lhe dê. Os processos normalmente distribuídos produzem dados com continuidade infinita, simetria perfeita e probabilidades especificadas com precisão dentro dos intervalos de desvio padrão (por exemplo, 68-95-99.7), nenhuma das quais jamais é exatamente verdadeira para processos que dão origem aos dados que podemos medir com o que quer que seja dispositivo de medição que nós humanos podemos usar.

Portanto, você nunca pode considerar que os dados sejam normalmente distribuídos, nem o processo que produziu os dados como um processo precisamente distribuído normalmente. Mas, como Glen_b indicou, isso pode não importar muito, dependendo do que você está tentando fazer com os dados.

As estatísticas de assimetria e curtose podem ajudar a avaliar certos tipos de desvios da normalidade do seu processo de geração de dados. São estatísticas altamente variáveis, no entanto. Os erros padrão dados acima não são úteis porque são válidos apenas sob a normalidade, o que significa que são úteis apenas como teste de normalidade, um exercício essencialmente inútil. Seria melhor usar o bootstrap para encontrar SE's, embora sejam necessárias amostras grandes para obter SE's precisos.

Além disso, a curtose é muito fácil de interpretar, ao contrário do post acima. É a média (ou valor esperado) dos valores de Z, cada um levado para a quarta potência. Grande | Z | os valores são discrepantes e contribuem fortemente para a curtose. Pequeno | Z | valores, onde está o "pico" da distribuição, fornecem valores Z ^ 4 que são minúsculos e não contribuem essencialmente com nada para a curtose. Eu provei no meu artigo https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ que a curtose é muito bem aproximada pela média dos valores de Z ^ 4 * I (| Z |> 1). Portanto, a curtose mede a propensão do processo de geração de dados a produzir outliers.

Peter Westfall
fonte

Apenas para esclarecer, o que exatamente você quer dizer com "processo normalmente distribuído"? Entendi o que você está dizendo sobre discrição e continuidade de variáveis aleatórias, mas e sobre a suposição sobre distribuição normal que pode ser feita usando o teorema do limite central?

Dark_Knight

O CLT não é relevante aqui - estamos falando sobre a distribuição que produz valores de dados individuais, não médias. Um "processo normalmente distribuído" é um processo que produz variáveis aleatórias normalmente distribuídas. Um gerador de computador número aleatória normal perfeito seria um exemplo (tal coisa um não existe, mas eles são muito bom danado no software que usamos.)

Peter Westfall

Além disso, como nenhum processo que produz dados que podemos analisar é um processo normal, também se segue que a distribuição das médias produzidas por esse processo também nunca é exatamente normal, independentemente do tamanho da amostra. Mas sim, as distribuições dessas médias podem estar próximas das distribuições normais, de acordo com o CLT. A proximidade dessas distribuições ao normal depende de (i) tamanho da amostra e (ii) grau de não normalidade do processo de geração de dados que produz os valores individuais dos dados.

precisa

Olá Peter - você pode evitar referências como "acima" porque a ordem de classificação será alterada. O que está acima para você pode não estar acima para a próxima pessoa olhar. Se você quer dizer a postagem de Gung ou a minha postagem (ainda em edição, como estou trabalhando em vários aspectos), você pode identificá-las pelo autor.

Glen_b -Reinstate Monica

Você parece afirmar acima que a curtose mais alta implica maior tendência a produzir discrepâncias. A menos que você defina outliers tautologicamente (isto é, para tornar a afirmação verdadeira), essa não é uma afirmação verdadeira no caso geral. Por exemplo, é razoavelmente fácil construir pares de distribuições em que aquela com uma cauda mais pesada tem menor curtose.

Glen_b -Reinstate Monica

O que você parece estar pedindo aqui é um erro padrão para a assimetria e curtose de uma amostra retirada de uma população normal. Note-se que existem várias maneiras de estimar coisas como assimetria ou fat-tailedness (curtose), que obviamente vai afetar o que o erro padrão será. As medidas mais comuns em que as pessoas pensam são mais conhecidas tecnicamente como o terceiro e o quarto momentos padronizados.

Vale a pena considerar algumas das complexidades dessas métricas. A estatística de assimetria típica não é uma medida de simetria da maneira como as pessoas suspeitam (cf, aqui ). A curtose pode ser ainda mais complicada. Tem um intervalo possível de , onde a distribuição normal tem uma curtose de . Como resultado, as pessoas geralmente usam a "curtose excessiva", que é a . Então o intervalo é . No entanto, na prática, a curtose é delimitada por baixo por e por cima por uma função do tamanho da sua amostra (aproximadamente ). Além disso, a curtose é mais difícil de interpretar quando a assimetria não é $[1, \infty)$ $3$ ${\rm kurtosis} - 3$ $[-2, \infty)$ ${\rm skewness}^2 + 1$ $24/N$ $0$ . Esses fatos tornam mais difícil o uso do que as pessoas esperam.

Para o que vale a pena, os erros padrão são:

\begin{aligned} S E (s k e w n e s s) & = \sqrt{\frac{6 N (N - 1)}{(N - 2) (N + 1) (N + 3)}} \\ S E (k u r t o s i s) & = 2 \times S E (s k e w n e s s) \sqrt{\frac{N^{2} - 1}{(N - 3) (N + 5)}} \end{aligned}

$\begin{align} SE({\rm skewness}) &= \sqrt{\frac{6N(N-1)}{(N-2)(N+1)(N+3)}} \\[10pt] SE({\rm kurtosis}) &= 2\times SE({\rm skewness})\sqrt{\frac{N^2-1}{(N-3)(N+5)}} \end{align}$

Deixando de lado a questão de saber se podemos diferenciar a assimetria e curtose de nossa amostra do que seria esperado de uma população normal, você também pode perguntar qual é o tamanho do desvio de . As regras básicas que ouvi (pelo que valem a pena) são geralmente: $0$

$<|.5|$ pequeno
$[|.5|, |1|)$ médio
$\ge |1|$ ampla

Uma boa visão geral introdutória da assimetria e curtose pode ser encontrada aqui .

Repor a Monica
fonte

[No que se segue, suponho que você esteja propondo algo como "verificar a assimetria e a curtose da amostra, se ambas estiverem dentro de alguns intervalos pré-especificados, use algum procedimento teórico normal, caso contrário, use outra coisa".]

Há uma série de aspectos nisso, dos quais teremos espaço apenas para algumas considerações. Começarei listando o que acho que as questões importantes podem ser examinadas antes de começarmos a usar um critério como este. Tentarei voltar e escrever um pouco sobre cada item posteriormente:

Questões a considerar

Quão mal os vários tipos de não normalidade são importantes para o que estamos fazendo?
Quão difícil é captar esses desvios usando faixas na assimetria e curtose da amostra?

Uma coisa com a qual concordo na proposta - analisa um par de medidas relacionadas ao tamanho do efeito ( quanto desvio da normalidade) e não à significância. Nesse sentido, aproximar-se-á de abordar algo útil que um teste formal de hipóteses, que tenderá a rejeitar mesmo desvios triviais em grandes amostras, enquanto oferece o falso consolo da não rejeição de desvios muito maiores (e mais impactantes) em amostras pequenas. (Os testes de hipótese abordam a questão errada aqui.)

É claro que em amostras pequenas, ainda é problemático no sentido de que as medidas são muito "barulhentas", para que ainda possamos ser desviados para lá (um intervalo de confiança nos ajudará a ver o quão ruim pode ser).

Não nos diz como um desvio na assimetria ou curtose se relaciona com problemas com o que desejamos normalidade - e procedimentos diferentes podem ser bem diferentes em suas respostas à não normalidade.

Não nos ajuda se nosso desvio da normalidade é de um tipo para o qual a distorção e a curtose serão cegas.
Se você estiver usando essas estatísticas de amostra como base para decidir entre dois procedimentos, qual é o impacto nas propriedades da inferência resultante (por exemplo, para um teste de hipótese, como é o seu nível de significância e poder ao fazer isso?)
Há um número infinito de distribuições que possuem exatamente a mesma assimetria e curtose da distribuição normal, mas são distintamente não normais. Eles nem precisam ser simétricos! Como a existência de tais coisas afeta o uso de tais procedimentos? A empresa está condenada desde o início?
Quanta variação na assimetria e curtose da amostra você pôde ver nas amostras extraídas de distribuições normais? (Que proporção de amostras normais acabaríamos descartando por alguma regra?)

[Em parte, esta questão está relacionada a algumas das questões discutidas em sua resposta.]
Pode haver algo melhor para fazer?

Por fim, se depois de considerar todas essas questões decidirmos que devemos seguir em frente e usar essa abordagem, chegamos a considerações decorrentes da sua pergunta:

Quais são os bons limites a serem observados na assimetria e na curtose para vários procedimentos? Com quais variáveis precisamos nos preocupar em quais procedimentos?

(por exemplo, se estivermos fazendo regressão, observe que é incorreto lidar com qualquer IV e até o DV bruto dessa maneira - presume-se que nenhum deles tenha sido extraído de uma distribuição normal comum)

Voltarei e acrescentarei algumas idéias, mas quaisquer comentários / perguntas que você tiver entretanto poderão ser úteis.

Glen_b -Reinstate Monica
fonte

Na verdade, eu tinha uma pergunta no meu exame declarando valores determinados de assimetria e curtose, o que pode ser dito sobre a normalidade da distribuição? Não estou particularmente certo se tirar alguma conclusão com base nesses dois números é uma boa idéia, pois já vi vários casos em que os valores de assimetria e curtose estão em torno de e ainda assim a distribuição é muito diferente do normal.

0

$0$

Dark_Knight

E também não entendo por que precisamos de uma faixa específica de valores de assimetria e curtose para realizar qualquer teste de normalidade?

Dark_Knight