Como posso determinar se os dados categóricos são normalmente distribuídos?

9
  1. É verdade que uma verificação de normalidade deve ser usada apenas para dados contínuos (razão, nível de intervalo de medição) e não para dados categóricos (nominal, ordinal)?

  2. Existe alguma maneira de verificar a normalidade dos dados categóricos?

NoraNorad
fonte

Respostas:

17

Os dados categóricos não são de uma distribuição normal.

A distribuição normal só faz sentido se você estiver lidando com pelo menos dados de intervalo, e a distribuição normal for contínua e em toda a linha real. Se alguma dessas informações não for verdadeira, você não precisará examinar a distribuição de dados para concluir que ela não é consistente com a normalidade.

[Observe que, se não for um intervalo, você terá problemas maiores do que os associados assumindo um formato de distribuição, pois mesmo o cálculo de uma média implica que você tenha uma escala de intervalo. Dizer que "Alto" + "Muito baixo" = "Médio" + "Baixo" e "Muito alto" + "Médio" = "Alto" + "Alto" (ou seja, exatamente o tipo de coisa que você precisa realizar para começar adicionando valores em primeiro lugar), você é forçado a assumir a escala de intervalo nesse ponto.]

Seria um tanto raro ter até amostras razoavelmente aproximadas de aparência normal com dados reais de proporção, uma vez que os dados de proporção são geralmente não negativos e tipicamente distorcidos.

Quando suas medidas são categóricas, não é tanto que você não pode "verificá-las", pois geralmente não faz sentido fazê-lo - você já sabe que não é uma amostra de uma distribuição normal. De fato, a idéia de tentar não faz sentido no caso dos dados nominais, pois as categorias nem sequer têm uma ordem! [A única distribuição invariável a um rearranjo arbitrário da ordem seria um uniforme discreto.]

Se seus dados são ordenados categóricos, os intervalos são arbitrários e, novamente, ficamos com uma noção com a qual não podemos fazer muito; noções ainda mais simples, como simetria, não se sustentam sob mudanças arbitrárias nos intervalos.

Para começar a contemplar uma normalidade aproximada, significa que devemos pelo menos assumir que nossas categorias são de intervalo / fixaram "escores" conhecidos.

Mas, de qualquer forma, a pergunta "é normal?" de qualquer maneira, não é realmente uma pergunta útil - desde quando os dados reais são realmente amostrados de uma distribuição normal ?

[Pode haver situações nas quais seria significativo considerar se as categorias ordenadas têm uma variável subjacente (latente) com (digamos) uma distribuição normal, mas esse é um tipo bem diferente de consideração.]

Uma pergunta mais útil é sugerida por George Box:

Lembre-se de que todos os modelos estão errados; a questão prática é quão errados eles devem estar para não serem úteis.

(Acredito que esteja em Box e Draper, junto com seu aforismo mais conhecido.)

Se você tivesse dados discretos com intervalo mínimo e tivesse um número razoável de categorias, talvez fizesse sentido verificar se não estava muito inclinado, digamos, mas você não acreditaria que fosse extraído de uma população normal - não pode ser.

Para alguns procedimentos inferenciais, a normalidade real pode não ser especialmente importante, principalmente em amostras maiores.

Glen_b -Reinstate Monica
fonte
Mas como posso verificar a normalidade em busca de dados categóricos nominais necessários para o teste z para proporções? Aqui diz que ele deve ser distribuição normal padrão: newonlinecourses.science.psu.edu/stat414/node/268
vasili111
Não confunda as categorias com a contagem de valores nessas categorias. Um conjunto de respostas categóricas como "vermelho, azul, rosa, azul ..." não pode ser normal. No entanto, a contagem dentro das categorias é uma história diferente. Um conjunto específico de contagens em categorias pode (dadas algumas suposições simples) ser modelado como uma distribuição multinomial que, se as contagens esperadas não forem muito baixas, pode ser bem aproximada como um normal multivariado (degenerado). Com um teste z para proporções - 2 resultados - a contagem em qualquer resultado (dadas as suposições) será binomial (e, portanto, aproximadamente normal com n grande).
Glen_b -Reinstala Monica 6/11/19