Quero saber como verificar a normalidade de um conjunto de dados no Excel, apenas para verificar se os requisitos para o uso de um teste t estão sendo atendidos .
Para a cauda direita, é apropriado apenas calcular uma média e um desvio padrão, adicionar 1, 2 e 3 desvios padrão da média para criar um intervalo e comparar com o normal 68/95 / 99,7 para a distribuição normal padrão após o uso a função norm.dist no excel para testar cada valor de desvio padrão.
Ou existe uma maneira melhor de testar a normalidade?
normal-distribution
excel
Eudora
fonte
fonte
Respostas:
Você tem a ideia certa. Isso pode ser feito de forma sistemática, abrangente e com cálculos relativamente simples. Um gráfico dos resultados é chamado de gráfico de probabilidade normal (ou às vezes gráfico de PP). A partir dele, você pode ver muito mais detalhes do que aparece em outras representações gráficas, especialmente histogramas , e com um pouco de prática, você pode até aprender a determinar maneiras de re-expressar seus dados para aproximá-los de Normal em situações onde isso é necessário.
Aqui está um exemplo:
Os dados estão na coluna
A
(e nomeadosData
). O restante é todo o cálculo, embora você possa controlar o valor de "classificação da dobradiça" usado para ajustar uma linha de referência ao gráfico.Esse gráfico é um gráfico de dispersão comparando os dados com valores que seriam alcançados por números sorteados independentemente de uma distribuição normal padrão. Quando os pontos se alinham ao longo da diagonal, eles estão próximos de Normal; partidas horizontais (ao longo do eixo de dados) indicam partidas da normalidade. Neste exemplo, os pontos estão notavelmente próximos da linha de referência; a maior partida ocorre no valor mais alto, que fica a cerca de unidades à esquerda da linha. Assim, vemos rapidamente que esses dados estão muito próximos de Normalmente distribuídos, mas talvez tenham uma cauda direita ligeiramente "leve". Isso é perfeitamente adequado para a aplicação de um teste t.1.5
Os valores de comparação no eixo vertical são calculados em duas etapas. Primeiro, cada valor de dados é classificado de a , a quantidade de dados (mostrada no campo na célula ). Eles são convertidos proporcionalmente em valores no intervalo de a . Uma boa fórmula a ser usada é (Consulte http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm para saber de onde vem isso.) Em seguida, eles são convertidos em valores normais padrão por meio da função. Esses valores aparecem na coluna. O gráfico à direita é um gráfico de dispersão XY de1 n 0 1 ( Hierarquia - 1 / 6 ) / ( n + 2 / 3 ) .0 0 1 ( Hierarquia - 1 / 6 ) / ( n + 2 / 3 ) .
Count
F2
NormSInv
Normal score
Normal Score
contra os dados. (Em algumas referências, você verá a transposição desse gráfico, que talvez seja mais natural, mas o Excel prefere colocar a coluna mais à esquerda no eixo horizontal e a coluna mais à direita no eixo vertical, por isso deixei fazer o que prefere. )(Como você pode ver, simulei esses dados com sorteios aleatórios independentes a partir de uma distribuição Normal com média e desvio padrão Portanto, não é surpresa que o gráfico de probabilidade seja tão bom.) Na verdade, existem apenas duas fórmulas para digitar, que você propaga para baixo para corresponder aos dados: eles aparecem nas células e dependem do valor calculado na célula . Isso é realmente tudo o que existe, além da trama.5 2
B2:C2
Count
F2
O restante desta planilha não é necessário, mas é útil para julgar o gráfico: fornece uma estimativa robusta de uma linha de referência. Isso é feito escolhendo dois pontos igualmente distantes da esquerda e direita da plotagem e conectando-os a uma linha. No exemplo, esses pontos são o terceiro mais baixo e o terceiro mais alto, conforme determinado pelos na célula . Como bônus, sua inclinação e interceptação são estimativas robustas do desvio padrão e da média dos dados, respectivamente.3
Hinge Rank
F3
Para plotar a linha de referência, dois pontos extremos são calculados e adicionados à plotagem: seu cálculo ocorre em colunas
I:J
, rotuladasX
eY
.fonte
Você pode plotar um histograma usando o pacote de ferramentas de análise de dados no Excel . É mais provável que as abordagens gráficas comuniquem o grau de não normalidade, que normalmente é mais relevante para o teste de suposição (consulte esta discussão sobre normalidade ).
O pacote de ferramentas de análise de dados no Excel também fornecerá distorção e curtose se você solicitar estatísticas descritivas e escolher a opção "estatísticas resumidas". Você pode, por exemplo, considerar valores de assimetria acima de mais ou menos um como uma forma de não normalidade substantiva.
Dito isto, a suposição com testes t é que os resíduos são normalmente distribuídos e não a variável. Além disso, eles também são bastante robustos, de modo que, mesmo com quantidades razoavelmente grandes de não normalidade, os valores de p ainda são razoavelmente válidos.
fonte
Essa questão também se baseia na teoria estatística - testar a normalidade com dados limitados pode ser questionável (embora todos tenhamos feito isso de tempos em tempos).
Como alternativa, você pode observar os coeficientes de curtose e assimetria. De Hahn e Shapiro: Modelos Estatísticos em Engenharia, alguns antecedentes são fornecidos nas propriedades Beta1 e Beta2 (páginas 42 a 49) e na Fig. 6-1 da Página 197. Teoria adicional por trás disso pode ser encontrada na Wikipedia (consulte Distribuição da Pearson).
Basicamente, você precisa calcular as propriedades Beta1 e Beta2. Um Beta1 = 0 e Beta2 = 3 sugere que o conjunto de dados se aproxima da normalidade. Este é um teste grosseiro, mas com dados limitados, pode-se argumentar que qualquer teste pode ser considerado grosseiro.
Beta1 está relacionado aos momentos 2 e 3, ou variância e assimetria , respectivamente. No Excel, esses são VAR e SKEW. Onde ... é sua matriz de dados, a fórmula é:
Beta2 está relacionado aos momentos 2 e 4, ou variância e curtose , respectivamente. No Excel, esses são VAR e KURT. Onde ... é sua matriz de dados, a fórmula é:
Em seguida, você pode compará-las com os valores de 0 e 3, respectivamente. Isso tem a vantagem de identificar potencialmente outras distribuições (incluindo as Distribuições Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Por exemplo, muitas das distribuições usadas com frequência, como Uniforme, Normal, t de Student, Beta, Gama, Exponencial e Log-Normal, podem ser indicadas a partir dessas propriedades:
Estes são ilustrados na Figura 6-1 de Hahn e Shapiro.
É um teste muito difícil (com alguns problemas), mas você pode considerá-lo uma verificação preliminar antes de seguir para um método mais rigoroso.
Também existem mecanismos de ajuste para o cálculo de Beta1 e Beta2, onde os dados são limitados - mas isso está além deste post.
fonte