Eu estive em um debate com meu professor de estatística em nível de pós-graduação sobre "distribuições normais". Afirmo que, para obter uma distribuição normal de verdade, é preciso ter média = mediana = modo, todos os dados devem estar contidos sob a curva de sino e perfeitamente simétricos em torno da média. Portanto, tecnicamente, praticamente não há distribuições normais em estudos reais, e deveríamos chamá-las de outra coisa, talvez "quase normal".
Ela diz que sou muito exigente e, se a inclinação / curtose for menor que 1,0, é uma distribuição normal e tirou pontos em um exame. O conjunto de dados é o número total de quedas / ano em uma amostra aleatória de 52 casas de repouso, que é uma amostra aleatória de uma população maior. Alguma visão?
Problema:
PERGUNTA: 3. Calcule medidas de assimetria e curtose para esses dados. Inclua um histograma com uma curva normal. Discuta suas descobertas. Os dados são normalmente distribuídos?
Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a
uma. Existem vários modos. O menor valor é mostrado
Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650
Minha resposta:
Os dados são platykurtic e têm apenas uma ligeira inclinação positiva, e NÃO é uma distribuição normal porque a média, a mediana e o modo não são iguais e os dados não são distribuídos uniformemente pela média. Na realidade, praticamente nenhum dado é uma distribuição normal perfeita, embora possamos discutir “distribuições aproximadamente normais”, como altura, peso, temperatura ou comprimento do dedo anelar adulto em grandes grupos populacionais.
Resposta do professor:
Você está certo de que não há distribuição perfeitamente normal. Mas, não estamos procurando a perfeição. Precisamos olhar para os dados além do histograma e das medidas de tendência central. O que as estatísticas de assimetria e curtose dizem sobre a distribuição? Como ambos estão entre os valores críticos de -1 e +1, esses dados são considerados normalmente distribuídos.
fonte
Respostas:
Um problema na sua discussão com o professor é de terminologia, há um mal-entendido que está atrapalhando a transmissão de uma ideia potencialmente útil. Em lugares diferentes, vocês dois cometem erros.
Portanto, a primeira coisa a ser abordada: é importante ser bem claro sobre o que é uma distribuição .
Uma distribuição normal é um objeto matemático específico, que você pode considerar como modelo para uma população infinita de valores. (Nenhuma população finita pode realmente ter uma distribuição contínua.)
Vagamente, o que essa distribuição faz (depois de especificar os parâmetros) é definir (por meio de uma expressão algébrica) a proporção dos valores da população que se encontram dentro de qualquer intervalo na linha real. Um pouco menos vagamente, define a probabilidade de que um único valor dessa população esteja em um determinado intervalo.
Uma amostra observada realmente não tem uma distribuição normal; uma amostra pode (potencialmente) ser retirada de uma distribuição normal, se houver. Se você olhar para o cdf empírico da amostra, é discreto. Se você o classificar (como em um histograma), a amostra possui uma "distribuição de frequência", mas essas não são distribuições normais. A distribuição pode nos dizer algumas coisas (em um sentido probabilístico) sobre uma amostra aleatória da população, e uma amostra também pode nos dizer algumas coisas sobre a população.
Uma interpretação razoável de uma frase como "amostra normalmente distribuída" * é "uma amostra aleatória de uma população normalmente distribuída".
* (Eu geralmente tento evitar dizer isso sozinho, por razões que, com sorte, são suficientemente claras aqui; geralmente eu consigo me limitar ao segundo tipo de expressão).
Tendo definido termos (ainda que um pouco vagamente), vamos agora examinar a questão em detalhes. Vou abordar partes específicas da questão.
Essa é certamente uma condição na distribuição de probabilidade normal, embora não seja um requisito para uma amostra retirada de uma distribuição normal; as amostras podem ser assimétricas, podem ter uma média diferente da mediana e assim por diante. [No entanto, podemos ter uma idéia de quão distantes podemos razoavelmente esperar que eles estejam se a amostra realmente vier de uma população normal.]
Não tenho certeza do que "contido em" significa nesse sentido.
Não; você está falando dos dados aqui, e uma amostra de uma população normal (definitivamente simétrica) não seria ela mesma perfeitamente simétrica.
Eu concordo com a sua conclusão , mas o raciocínio não é correto; não é uma conseqüência do fato de que os dados não são perfeitamente simétricos (etc); é o fato de que as próprias populações não são perfeitamente normais .
Se ela disse isso dessa maneira, ela está definitivamente errada.
Uma assimetria da amostra pode estar muito mais próxima de 0 do que isso (considerando "menor que" para significar em magnitude absoluta, não valor real), e a curtose excessiva da amostra também pode estar muito mais próxima de 0 (isso pode ser por acaso ou por acaso). potencialmente quase zero), e ainda assim a distribuição da qual a amostra foi coletada pode ser facilmente diferente do normal.
Podemos ir além - mesmo se soubéssemos magicamente que a distorção da população e a curtose eram exatamente as de um normal, ainda assim não diria por si só que a população era normal, nem mesmo algo próximo do normal.
A distribuição populacional das contagens nunca é normal. As contagens são discretas e não-negativas; as distribuições normais são contínuas e em toda a linha real.
Mas estamos realmente focados na questão errada aqui. Modelos de probabilidade são apenas isso, modelos . Não confundamos nossos modelos com a coisa real .
A questão não é "os dados são normais?" (eles não podem ser), nem mesmo "a população da qual os dados foram extraídos é normal?" (quase nunca será esse o caso).
Uma pergunta mais útil a ser discutida é "qual seria o impacto da minha inferência se eu tratasse a população como normalmente distribuída?"
Também é uma pergunta muito mais difícil de responder bem e pode exigir muito mais trabalho do que olhar para alguns diagnósticos simples.
As estatísticas de amostra que você mostrou não são particularmente inconsistentes com a normalidade (você pode ver estatísticas como essa ou "pior" não muito raramente se tiver amostras aleatórias desse tamanho de populações normais), mas isso não significa por si só que a população real a partir do qual a amostra foi coletada é automaticamente "próxima o suficiente" do normal para alguma finalidade específica. Seria importante considerar o objetivo (que perguntas você está respondendo) e a robustez dos métodos empregados para isso, e mesmo assim ainda podemos não ter certeza de que é "bom o suficiente"; às vezes pode ser melhor simplesmente não assumir o que não temos boas razões para assumir a priori (por exemplo, com base na experiência com conjuntos de dados semelhantes).
Dados - mesmo dados extraídos de uma população normal - nunca têm exatamente as propriedades da população; a partir desses números, você não tem uma boa base para concluir que a população não é normal aqui.
Por outro lado, também não temos nenhuma base razoavelmente sólida para dizer que ela é "suficientemente próxima" do normal - nem sequer consideramos o propósito de assumir a normalidade; portanto, não sabemos a quais recursos distributivos ele pode ser sensível.
Por exemplo, se eu tivesse duas amostras para uma medida delimitada, que sabia que não seriam muito discretas (não apenas usando apenas alguns valores distintos) e razoavelmente próximas de simétricas, talvez eu estivesse relativamente feliz em usar uma amostra de duas amostras teste t em um tamanho de amostra não tão pequeno; é moderadamente robusto a leves desvios das suposições (um tanto robusto quanto ao nível, não tão robusto quanto ao poder). Mas eu seria consideravelmente mais cauteloso ao assumir a normalidade causal ao testar a igualdade de propagação, por exemplo, porque o melhor teste sob essa suposição é bastante sensível à suposição.
Se esse é realmente o critério pelo qual se decide usar um modelo distributivo normal, algumas vezes o leva a análises muito ruins.
Os valores dessas estatísticas nos dão algumas dicas sobre a população da qual a amostra foi retirada, mas isso não é o mesmo que sugerir que seus valores são de alguma forma um 'guia seguro' para a escolha de uma análise.
Agora, para resolver o problema subjacente com uma versão melhor formulada de uma pergunta como a que você tinha:
Todo o processo de analisar uma amostra para escolher um modelo está repleto de problemas - isso altera as propriedades de quaisquer escolhas subsequentes de análise com base no que você viu! por exemplo, para um teste de hipótese, seus níveis de significância, valores-p e poder não são exatamente o que você escolheria / calcularia , porque esses cálculos são baseados na análise que não se baseia nos dados.
Veja, por exemplo, Gelman e Loken (2014), " The Statistical Crisis in Science ", American Scientist , Volume 102, Número 6, p 460 (DOI: 10.1511 / 2014.111.460) que discute questões com essa análise dependente de dados.
fonte
Você está perdendo o objetivo e provavelmente também está sendo "difícil", o que não é apreciado no setor. Ela está mostrando um exemplo de brinquedo para treiná-lo na avaliação da normalidade de um conjunto de dados, ou seja, se o conjunto de dados vem de uma distribuição normal . Observar os momentos de distribuição é uma maneira de verificar a normalidade, por exemplo, o teste de Jarque Bera é baseado nessa avaliação.
Sim, a distribuição normal é perfeitamente simétrica. No entanto, se você extrair uma amostra de uma distribuição normal verdadeira, essa amostra provavelmente não será perfeitamente simétrica. Este é o ponto que você está perdendo completamente. Você pode testar isso com muita facilidade. Apenas gere uma amostra da distribuição gaussiana e verifique seu momento. Eles nunca serão perfeitamente "normais", apesar da verdadeira distribuição ser tal.
Aqui está um exemplo bobo de Python. Estou gerando 100 amostras de 100 números aleatórios e depois obtendo suas médias e medianas. Imprimo a primeira amostra para mostrar que a média e a mediana são diferentes, depois mostro o histograma da diferença entre as médias e as medianas. Você pode ver que é bastante estreito, mas a diferença é basicamente nunca zero. Observe que os números são realmente provenientes de uma distribuição normal .
código:
saídas:
PS
Agora, se o exemplo da sua pergunta deve ser considerado normal ou não, depende do contexto. No contexto do que foi ensinado em sua sala de aula, você está errado, porque seu professor queria ver se você conhece a regra geral que ela lhe deu, que é que a inclinação e o excesso de curtose precisam estar em -1 a 1 alcance.
Pessoalmente, nunca usei essa regra geral (não posso chamá-la de teste) e nem sabia que ela existia. Aparentemente, algumas pessoas em alguns campos o usam. Se você conectasse os descritivos do conjunto de dados ao teste JB, isso teria rejeitado a normalidade. Portanto, você não está errado ao sugerir que o conjunto de dados não é normal, é claro, mas está errado no sentido de não ter aplicado a regra que era esperada de você com base no que foi ensinado na classe.
Se eu fosse você, educadamente abordaria seu professor e me explicaria, além de mostrar os resultados do teste JB. Eu reconheceria que, com base no teste dela, minha resposta estava errada, é claro. Se você tentar argumentar com ela da maneira como argumenta aqui, suas chances são muito baixas de obter o argumento de volta no teste, porque seu raciocínio é fraco sobre medianas, meios e amostras, isso mostra falta de entendimento entre amostras e populações. Se você mudar sua música, terá um caso.
fonte
O professor está claramente fora do seu elemento e provavelmente não deveria estar ensinando estatística. Parece-me pior ensinar algo errado do que não ensinar nada.
Todas essas questões poderiam ser esclarecidas facilmente se a distinção entre "dados" e "processo que os produziu" fosse feita com mais clareza. Os dados visam o processo que produziu os dados. A distribuição normal é um modelo para esse processo.
Não faz sentido falar se os dados são normalmente distribuídos. Por um motivo, os dados são sempre discretos. Por outro motivo, a distribuição normal descreve uma infinidade de quantidades potencialmente observáveis, não um conjunto finito de quantidades observadas específicas.
Além disso, a resposta à pergunta "é o processo que produziu os dados como um processo normalmente distribuído " também é sempre "não", independentemente dos dados. Duas razões simples: (i) quaisquer medições que fazemos são necessariamente discretas, sendo arredondadas para algum nível. (ii) a simetria perfeita, como um círculo perfeito, não existe na natureza observável. Sempre existem imperfeições.
Na melhor das hipóteses, a resposta para a pergunta "o que esses dados dizem sobre a normalidade do processo de geração de dados" pode ser dada da seguinte forma: "esses dados são consistentes com o que esperaríamos ver se os dados realmente viessem de um processo normalmente distribuído ". Essa resposta corretamente não conclui que a distribuição é normal.
Esses problemas são facilmente compreendidos usando a simulação. Apenas simule dados de uma distribuição normal e compare-os com os dados existentes. Se os dados são contados (0,1,2,3, ...), obviamente o modelo normal está errado porque não produz números como 0,1,2,3, ...; em vez disso, produz números decimais que duram para sempre (ou pelo menos na medida em que o computador permitir). Essa simulação deve ser a primeira coisa que você faz ao aprender sobre a questão da normalidade. Em seguida, você pode interpretar mais corretamente os gráficos e as estatísticas de resumo.
fonte
Eu sou engenheiro, portanto, no meu mundo, o estatístico aplicado é o que eu mais vejo e recebo o valor mais concreto. Se você vai trabalhar na área de aplicação, precisa ter uma sólida base na prática sobre a teoria: seja elegante ou não, a aeronave precisa voar e não cair.
Quando penso sobre essa questão, a maneira como eu a abordo, como muitos de meus especialistas técnicos também fizeram, é pensar em "como ela se parece no mundo real com a presença de ruído".
A segunda coisa que faço é, muitas vezes, fazer uma simulação que permita que eu entenda a questão.
Aqui está uma breve exploração:
Dá isto como a saída:
Nota: tenha cuidado com o eixo x, porque ele é escalado em log, não em escala uniforme.
Eu sei que a média e a mediana são exatamente as mesmas. O código diz isso. A realização empírica é muito sensível ao tamanho da amostra e, se não houver amostras verdadeiramente infinitas, elas nunca poderão corresponder perfeitamente à teoria.
Você pode pensar se a incerteza na mediana envolve a média estimada ou vice-versa. Se a melhor estimativa da média estiver dentro do IC de 95% da estimativa para a mediana, os dados não poderão dizer a diferença. Os dados dizem que eles são os mesmos em teoria. Se você obtiver mais dados, veja o que diz.
fonte
Nas estatísticas médicas, apenas comentamos as formas e aparência das distribuições. O fato de nenhuma amostra finita discreta poder ser normal é irrelevante e pedante. Eu marcaria você errado por isso.
Se uma distribuição parece "na maior parte" normal, estamos confortáveis em chamá-la de normal. Quando descrevo distribuições para um público não estatístico, estou muito confortável em chamar algo aproximadamente normal, mesmo quando sei que a distribuição normal não é o modelo de probabilidade subjacente, tenho a sensação de que ficaria do lado do seu professor aqui ... mas nós não possui histograma ou conjunto de dados para verificar.
Como uma dica, eu faria as seguintes inspeções com muita atenção:
fonte
Eu acho que você e seu professor estão conversando em um contexto diferente. Igualdade de média = mediana = modo são características da distribuição teórica e essa não é a única característica. Você não pode dizer que, se qualquer distribuição acima da propriedade for mantida, a distribuição será normal. A distribuição T também é simétrica, mas não é normal. Então, você está falando sobre propriedades teóricas da distribuição normal, que sempre são verdadeiras para a distribuição normal.
Seu professor está falando sobre a distribuição de dados de amostra. Ele está certo, você nunca obterá dados na vida real, onde encontrará média = mediana = modo. Isto é simplesmente devido a erro de amostragem . Da mesma forma, é muito improvável que você obtenha zero coeficiente de assimetria para dados de amostra e zero excesso de curtose. Seu professor está apenas fornecendo uma regra simples para você ter uma idéia da distribuição a partir das estatísticas da amostra. O que não é verdade em geral (sem obter mais informações).
fonte
Para fins práticos, processos subjacentes como esse geralmente são aproximados com precisão pela distribuição normal, sem que ninguém levante uma sobrancelha.
No entanto, se você quiser ser pedante, o processo subjacente nesse caso não pode ser normalmente distribuído, porque não pode produzir valores negativos (o número de quedas não pode ser negativo). Eu não ficaria surpreso se de fato fosse pelo menos uma distribuição bimodal com o segundo pico próximo de zero.
fonte