Como verificar a distribuição normal usando o Excel para realizar um teste t?

21

Quero saber como verificar a normalidade de um conjunto de dados no Excel, apenas para verificar se os requisitos para o uso de um teste t estão sendo atendidos .

Para a cauda direita, é apropriado apenas calcular uma média e um desvio padrão, adicionar 1, 2 e 3 desvios padrão da média para criar um intervalo e comparar com o normal 68/95 / 99,7 para a distribuição normal padrão após o uso a função norm.dist no excel para testar cada valor de desvio padrão.

Ou existe uma maneira melhor de testar a normalidade?

Eudora
fonte

Respostas:

15

Você tem a ideia certa. Isso pode ser feito de forma sistemática, abrangente e com cálculos relativamente simples. Um gráfico dos resultados é chamado de gráfico de probabilidade normal (ou às vezes gráfico de PP). A partir dele, você pode ver muito mais detalhes do que aparece em outras representações gráficas, especialmente histogramas , e com um pouco de prática, você pode até aprender a determinar maneiras de re-expressar seus dados para aproximá-los de Normal em situações onde isso é necessário.

Aqui está um exemplo:

Planilha com gráfico de probabilidade

Os dados estão na coluna A(e nomeados Data). O restante é todo o cálculo, embora você possa controlar o valor de "classificação da dobradiça" usado para ajustar uma linha de referência ao gráfico.

Esse gráfico é um gráfico de dispersão comparando os dados com valores que seriam alcançados por números sorteados independentemente de uma distribuição normal padrão. Quando os pontos se alinham ao longo da diagonal, eles estão próximos de Normal; partidas horizontais (ao longo do eixo de dados) indicam partidas da normalidade. Neste exemplo, os pontos estão notavelmente próximos da linha de referência; a maior partida ocorre no valor mais alto, que fica a cerca de unidades à esquerda da linha. Assim, vemos rapidamente que esses dados estão muito próximos de Normalmente distribuídos, mas talvez tenham uma cauda direita ligeiramente "leve". Isso é perfeitamente adequado para a aplicação de um teste t.1.5

Os valores de comparação no eixo vertical são calculados em duas etapas. Primeiro, cada valor de dados é classificado de a , a quantidade de dados (mostrada no campo na célula ). Eles são convertidos proporcionalmente em valores no intervalo de a . Uma boa fórmula a ser usada é (Consulte http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm para saber de onde vem isso.) Em seguida, eles são convertidos em valores normais padrão por meio da função. Esses valores aparecem na coluna. O gráfico à direita é um gráfico de dispersão XY de1n0 1 ( Hierarquia - 1 / 6 ) / ( n + 2 / 3 ) .CountF20 01(classificação-1/6)/(n+2/3).NormSInvNormal scoreNormal Scorecontra os dados. (Em algumas referências, você verá a transposição desse gráfico, que talvez seja mais natural, mas o Excel prefere colocar a coluna mais à esquerda no eixo horizontal e a coluna mais à direita no eixo vertical, por isso deixei fazer o que prefere. )

Planilha: cálculo de pontuação normal

(Como você pode ver, simulei esses dados com sorteios aleatórios independentes a partir de uma distribuição Normal com média e desvio padrão Portanto, não é surpresa que o gráfico de probabilidade seja tão bom.) Na verdade, existem apenas duas fórmulas para digitar, que você propaga para baixo para corresponder aos dados: eles aparecem nas células e dependem do valor calculado na célula . Isso é realmente tudo o que existe, além da trama.52B2:C2CountF2

O restante desta planilha não é necessário, mas é útil para julgar o gráfico: fornece uma estimativa robusta de uma linha de referência. Isso é feito escolhendo dois pontos igualmente distantes da esquerda e direita da plotagem e conectando-os a uma linha. No exemplo, esses pontos são o terceiro mais baixo e o terceiro mais alto, conforme determinado pelos na célula . Como bônus, sua inclinação e interceptação são estimativas robustas do desvio padrão e da média dos dados, respectivamente.3Hinge RankF3

Para plotar a linha de referência, dois pontos extremos são calculados e adicionados à plotagem: seu cálculo ocorre em colunas I:J, rotuladas Xe Y.

Planilha: cálculo da linha de referência

whuber
fonte
Para as fórmulas da Col B, você explicaria o motivo de adicionar 1 e dividir por 6 e 3 ("+ 1/6" e "+ 1/3")? Também existe um motivo para você optar por dividir por 6 na célula de classificação de dobradiça?
@ Michael Boas perguntas. é uma maneira simples e bem conhecida de estabelecer pontos de plotagem de probabilidade. Lembro-me de John Tukey recomendando isso em seu livro, EDA . A fórmula da classificação da dobradiça é misteriosa: eu deveria ter explicado que estou escolhendo dois pontos igualmente distantes das extremidades nos percentis e . Qualquer multiplicador substancialmente maior que e menor que funcionaria. é popular: corresponde aos quartis. Assim é , correspondendo a 1 SD para uma distribuição Normal. 100 × 1 / 6 100 × 5 / 6 0 1 / 2 1 / 4 0,161/6100×1/6100×5/60 01/21/40,16
whuber
A fórmula (classificação + 1/6) / (n + 1/3) não parece ser simétrica, como poderíamos antecipar. por exemplo, com a observação do meio de 3, a classificação é 2 e isso sugeriria um percentil correspondente de 0,65, em vez do que pareceria natural para a observação do meio (0,5). Perdi algo óbvio? [Vi Tukey usar algumas fórmulas diferentes em lugares diferentes, incluindo (i-1/3) / (n + 1/3). A fórmula no seu link se encaixa no esquema comum (ia) / (n + 1-2a), mas a fórmula que você fornece na sua resposta não]]
Glen_b -Reinstala Monica 16/17
@Glen_b Obrigado por capturar isso. Eu tinha citado errado a fórmula. Minha fonte é (minha própria página!) Em quantdec.com/envstats/notes/class_02/… , onde a fórmula correta é dada e justificada: geralmente se usa que é o posto (a partir de através de ) e tipicamente é um número entre e , frequentemente . Isso produz como a fórmula desejada. ( 1/3 fornece a fórmula de Tukey que você cita.) Corrigi a fórmula e a ilustração do Excel.
r-uman+1-2uma
r1numa0 011/6(r-1/6)/(n+2/3)uma=1/3
whuber
5

Você pode plotar um histograma usando o pacote de ferramentas de análise de dados no Excel . É mais provável que as abordagens gráficas comuniquem o grau de não normalidade, que normalmente é mais relevante para o teste de suposição (consulte esta discussão sobre normalidade ).

O pacote de ferramentas de análise de dados no Excel também fornecerá distorção e curtose se você solicitar estatísticas descritivas e escolher a opção "estatísticas resumidas". Você pode, por exemplo, considerar valores de assimetria acima de mais ou menos um como uma forma de não normalidade substantiva.

Dito isto, a suposição com testes t é que os resíduos são normalmente distribuídos e não a variável. Além disso, eles também são bastante robustos, de modo que, mesmo com quantidades razoavelmente grandes de não normalidade, os valores de p ainda são razoavelmente válidos.

Jeromy Anglim
fonte
4

Essa questão também se baseia na teoria estatística - testar a normalidade com dados limitados pode ser questionável (embora todos tenhamos feito isso de tempos em tempos).

Como alternativa, você pode observar os coeficientes de curtose e assimetria. De Hahn e Shapiro: Modelos Estatísticos em Engenharia, alguns antecedentes são fornecidos nas propriedades Beta1 e Beta2 (páginas 42 a 49) e na Fig. 6-1 da Página 197. Teoria adicional por trás disso pode ser encontrada na Wikipedia (consulte Distribuição da Pearson).

Basicamente, você precisa calcular as propriedades Beta1 e Beta2. Um Beta1 = 0 e Beta2 = 3 sugere que o conjunto de dados se aproxima da normalidade. Este é um teste grosseiro, mas com dados limitados, pode-se argumentar que qualquer teste pode ser considerado grosseiro.

Beta1 está relacionado aos momentos 2 e 3, ou variância e assimetria , respectivamente. No Excel, esses são VAR e SKEW. Onde ... é sua matriz de dados, a fórmula é:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 está relacionado aos momentos 2 e 4, ou variância e curtose , respectivamente. No Excel, esses são VAR e KURT. Onde ... é sua matriz de dados, a fórmula é:

Beta2 = KURT(...)/VAR(...)^2

Em seguida, você pode compará-las com os valores de 0 e 3, respectivamente. Isso tem a vantagem de identificar potencialmente outras distribuições (incluindo as Distribuições Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Por exemplo, muitas das distribuições usadas com frequência, como Uniforme, Normal, t de Student, Beta, Gama, Exponencial e Log-Normal, podem ser indicadas a partir dessas propriedades:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Estes são ilustrados na Figura 6-1 de Hahn e Shapiro.

É um teste muito difícil (com alguns problemas), mas você pode considerá-lo uma verificação preliminar antes de seguir para um método mais rigoroso.

Também existem mecanismos de ajuste para o cálculo de Beta1 e Beta2, onde os dados são limitados - mas isso está além deste post.

AsymLabs
fonte
Muito desse material pode funcionar bem para grandes conjuntos de dados e eu concordo com sua avaliação inicial de que o teste de normalidade pode ser limitado ou questionável com pequenos conjuntos de dados. Mas, dada a enorme variabilidade de assimetria e curtose, parece que qualquer esforço para identificar o tipo de distribuição subjacente com base nessas estatísticas seria ainda mais questionável e menos certo. Consequentemente, essa abordagem não seria (na melhor das hipóteses) enganosa, mesmo como uma verificação preliminar?
whuber
1
Talvez seja melhor qualificar o método ainda mais: Hahn e Shapiro (como mencionado acima) aconselham que seja preciso ter cuidado, especialmente quando o tamanho da amostra for menor que 200 - e recomendam que isso seja seguido por verificações adicionais, como uma tabela de frequências que compara a distribuição ajustada com os dados reais. Mas, na minha opinião, é um método útil que pode sugerir onde os dados podem estar dentro de um espectro de possibilidades. Eu o usei em conjuntos de dados não menores que aproximadamente 3000 e o integrei no software de simulação de computador, onde ele se mostrou útil.
AsymLabs
Eu posso ver seu método fornecendo informações úteis com conjuntos de dados de 3000 ou mais. No entanto, não há necessidade de realizar testes de distribuição para avaliar a aplicabilidade de um teste t da média.
whuber
Se alguém vê isso como uma técnica útil, como eu faço ou não, como parece ser sua opinião, ainda assim é uma alternativa rápida e estabelecida por Pearson para testar a normalidade (e o aplicativo Students-t) no contexto desta discussão. Por favor, não me interpretem mal, eu reconheço e concordo com suas preocupações. Mas nós dois concordaríamos, não concordaríamos que, sem informações prévias, tentar estabelecer se uma população inteira pode ser modelada em um gaussiano a partir de uma amostra de dados muito pequena é um tiro no escuro, na melhor das hipóteses, com qualquer método, e na pior das hipóteses é perigoso.
AsymLabs
1
Está certo. Tudo o que estou dizendo é que, se é perigoso tentar, a partir de uma pequena amostra, testar se a população é gaussiana, deve ser pelo menos tão perigoso usar a assimetria e curtose para identificar qual pode ser a distribuição subjacente! De fato, parece que tal tentativa seria realmente pior porque se baseia em estatísticas instáveis ​​como a curtose. Embora o sistema da Pearson possa ser um guia poderoso para ajudar as pessoas a identificar possíveis distribuições, ele fornece menos informações do que as exibições gráficas limitadas, como histogramas.
whuber