Uma "distribuição normal" precisa ter média = mediana = modo?

17

Eu estive em um debate com meu professor de estatística em nível de pós-graduação sobre "distribuições normais". Afirmo que, para obter uma distribuição normal de verdade, é preciso ter média = mediana = modo, todos os dados devem estar contidos sob a curva de sino e perfeitamente simétricos em torno da média. Portanto, tecnicamente, praticamente não há distribuições normais em estudos reais, e deveríamos chamá-las de outra coisa, talvez "quase normal".

Ela diz que sou muito exigente e, se a inclinação / curtose for menor que 1,0, é uma distribuição normal e tirou pontos em um exame. O conjunto de dados é o número total de quedas / ano em uma amostra aleatória de 52 casas de repouso, que é uma amostra aleatória de uma população maior. Alguma visão?

Problema:

PERGUNTA: 3. Calcule medidas de assimetria e curtose para esses dados. Inclua um histograma com uma curva normal. Discuta suas descobertas. Os dados são normalmente distribuídos?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

uma. Existem vários modos. O menor valor é mostrado

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Minha resposta:

Os dados são platykurtic e têm apenas uma ligeira inclinação positiva, e NÃO é uma distribuição normal porque a média, a mediana e o modo não são iguais e os dados não são distribuídos uniformemente pela média. Na realidade, praticamente nenhum dado é uma distribuição normal perfeita, embora possamos discutir “distribuições aproximadamente normais”, como altura, peso, temperatura ou comprimento do dedo anelar adulto em grandes grupos populacionais.

Resposta do professor:

Você está certo de que não há distribuição perfeitamente normal. Mas, não estamos procurando a perfeição. Precisamos olhar para os dados além do histograma e das medidas de tendência central. O que as estatísticas de assimetria e curtose dizem sobre a distribuição? Como ambos estão entre os valores críticos de -1 e +1, esses dados são considerados normalmente distribuídos.

Possum-Pie
fonte
3
Eu gostaria de saber o texto exato do seu professor. Em princípio, uma distribuição normal tem média, mediana e modo idênticos (mas muitas outras distribuições) e assimetria 0 e (chamado excesso) de curtose 0 (e outras distribuições). Na melhor das hipóteses, uma distribuição com (por exemplo) leve inclinação ou curtose é aproximadamente normal. Observe que quase todos os dados reais são, na melhor das hipóteses, aproximações às distribuições nomeadas no zoológico teórico.
Nick Cox
22
Não concordo com @ user2974951 Na empresa, com todo bom texto que sei, estou perfeitamente feliz ao pensar que a distribuição normal tem mediana e modo. E isso se aplica amplamente a distribuições contínuas, embora eu não duvide que contra-exemplos patológicos possam ser identificados.
Nick Cox
4
Obrigado pelos detalhes específicos, que mostram mérito dos dois lados, mas não estou classificando nenhum dos dois. No entanto, discordo fortemente do termo valores críticos usados ​​pelo seu professor, pois os limites para assimetria e curtose não têm nenhuma importância além das regras práticas que podem ser usadas. Dependendo do que você está fazendo com os dados, uma assimetria pode ser acompanhada de querer transformar os dados e uma assimetria pode acompanhar a saída dos dados, e da mesma forma para a curtose. < 1 > 1±1<1>1
Nick Cox
6
Se nos deixarmos abraçar seriamente a arte de apontar, devemos observar que não há quedas negativas e que as quedas são discretas, de modo que a distribuição de fato não pode ser normal. Isso torna a pergunta nula em primeiro lugar. Em uma observação mais séria, a pergunta é claramente um exemplo fabricado com o objetivo de verificar regras práticas específicas. Na realidade, dependendo do objetivo do nosso estudo, pode ser razoável ou não assumir uma distribuição normal. Na verdade, nunca saberemos, pois só temos uma amostra.
Ioannis
5
@ user2974951 Portanto, você deve excluir o seu primeiro comentário, já que discorda dele agora. Até agora, isso levou três leitores a sinalizarem que concordam com isso!
whuber

Respostas:

25

Um problema na sua discussão com o professor é de terminologia, há um mal-entendido que está atrapalhando a transmissão de uma ideia potencialmente útil. Em lugares diferentes, vocês dois cometem erros.

Portanto, a primeira coisa a ser abordada: é importante ser bem claro sobre o que é uma distribuição .

Uma distribuição normal é um objeto matemático específico, que você pode considerar como modelo para uma população infinita de valores. (Nenhuma população finita pode realmente ter uma distribuição contínua.)

Vagamente, o que essa distribuição faz (depois de especificar os parâmetros) é definir (por meio de uma expressão algébrica) a proporção dos valores da população que se encontram dentro de qualquer intervalo na linha real. Um pouco menos vagamente, define a probabilidade de que um único valor dessa população esteja em um determinado intervalo.

Uma amostra observada realmente não tem uma distribuição normal; uma amostra pode (potencialmente) ser retirada de uma distribuição normal, se houver. Se você olhar para o cdf empírico da amostra, é discreto. Se você o classificar (como em um histograma), a amostra possui uma "distribuição de frequência", mas essas não são distribuições normais. A distribuição pode nos dizer algumas coisas (em um sentido probabilístico) sobre uma amostra aleatória da população, e uma amostra também pode nos dizer algumas coisas sobre a população.

Uma interpretação razoável de uma frase como "amostra normalmente distribuída" * é "uma amostra aleatória de uma população normalmente distribuída".

* (Eu geralmente tento evitar dizer isso sozinho, por razões que, com sorte, são suficientemente claras aqui; geralmente eu consigo me limitar ao segundo tipo de expressão).

Tendo definido termos (ainda que um pouco vagamente), vamos agora examinar a questão em detalhes. Vou abordar partes específicas da questão.

distribuição normal é preciso ter média = mediana = modo

Essa é certamente uma condição na distribuição de probabilidade normal, embora não seja um requisito para uma amostra retirada de uma distribuição normal; as amostras podem ser assimétricas, podem ter uma média diferente da mediana e assim por diante. [No entanto, podemos ter uma idéia de quão distantes podemos razoavelmente esperar que eles estejam se a amostra realmente vier de uma população normal.]

todos os dados devem estar contidos sob a curva de sino

Não tenho certeza do que "contido em" significa nesse sentido.

e perfeitamente simétrico em torno da média.

Não; você está falando dos dados aqui, e uma amostra de uma população normal (definitivamente simétrica) não seria ela mesma perfeitamente simétrica.

Portanto, tecnicamente, praticamente não há distribuições normais em estudos reais,

Eu concordo com a sua conclusão , mas o raciocínio não é correto; não é uma conseqüência do fato de que os dados não são perfeitamente simétricos (etc); é o fato de que as próprias populações não são perfeitamente normais .

se a inclinação / curtose for menor que 1,0, é uma distribuição normal

Se ela disse isso dessa maneira, ela está definitivamente errada.

Uma assimetria da amostra pode estar muito mais próxima de 0 do que isso (considerando "menor que" para significar em magnitude absoluta, não valor real), e a curtose excessiva da amostra também pode estar muito mais próxima de 0 (isso pode ser por acaso ou por acaso). potencialmente quase zero), e ainda assim a distribuição da qual a amostra foi coletada pode ser facilmente diferente do normal.

Podemos ir além - mesmo se soubéssemos magicamente que a distorção da população e a curtose eram exatamente as de um normal, ainda assim não diria por si só que a população era normal, nem mesmo algo próximo do normal.

O conjunto de dados é o número total de quedas / ano em uma amostra aleatória de 52 casas de repouso, que é uma amostra aleatória de uma população maior.

A distribuição populacional das contagens nunca é normal. As contagens são discretas e não-negativas; as distribuições normais são contínuas e em toda a linha real.

Mas estamos realmente focados na questão errada aqui. Modelos de probabilidade são apenas isso, modelos . Não confundamos nossos modelos com a coisa real .

A questão não é "os dados são normais?" (eles não podem ser), nem mesmo "a população da qual os dados foram extraídos é normal?" (quase nunca será esse o caso).

Uma pergunta mais útil a ser discutida é "qual seria o impacto da minha inferência se eu tratasse a população como normalmente distribuída?"

Também é uma pergunta muito mais difícil de responder bem e pode exigir muito mais trabalho do que olhar para alguns diagnósticos simples.

As estatísticas de amostra que você mostrou não são particularmente inconsistentes com a normalidade (você pode ver estatísticas como essa ou "pior" não muito raramente se tiver amostras aleatórias desse tamanho de populações normais), mas isso não significa por si só que a população real a partir do qual a amostra foi coletada é automaticamente "próxima o suficiente" do normal para alguma finalidade específica. Seria importante considerar o objetivo (que perguntas você está respondendo) e a robustez dos métodos empregados para isso, e mesmo assim ainda podemos não ter certeza de que é "bom o suficiente"; às vezes pode ser melhor simplesmente não assumir o que não temos boas razões para assumir a priori (por exemplo, com base na experiência com conjuntos de dados semelhantes).

NÃO é uma distribuição normal

Dados - mesmo dados extraídos de uma população normal - nunca têm exatamente as propriedades da população; a partir desses números, você não tem uma boa base para concluir que a população não é normal aqui.

Por outro lado, também não temos nenhuma base razoavelmente sólida para dizer que ela é "suficientemente próxima" do normal - nem sequer consideramos o propósito de assumir a normalidade; portanto, não sabemos a quais recursos distributivos ele pode ser sensível.

Por exemplo, se eu tivesse duas amostras para uma medida delimitada, que sabia que não seriam muito discretas (não apenas usando apenas alguns valores distintos) e razoavelmente próximas de simétricas, talvez eu estivesse relativamente feliz em usar uma amostra de duas amostras teste t em um tamanho de amostra não tão pequeno; é moderadamente robusto a leves desvios das suposições (um tanto robusto quanto ao nível, não tão robusto quanto ao poder). Mas eu seria consideravelmente mais cauteloso ao assumir a normalidade causal ao testar a igualdade de propagação, por exemplo, porque o melhor teste sob essa suposição é bastante sensível à suposição.

Como ambos estão entre os valores críticos de -1 e +1, esses dados são considerados normalmente distribuídos ".

Se esse é realmente o critério pelo qual se decide usar um modelo distributivo normal, algumas vezes o leva a análises muito ruins.

Os valores dessas estatísticas nos dão algumas dicas sobre a população da qual a amostra foi retirada, mas isso não é o mesmo que sugerir que seus valores são de alguma forma um 'guia seguro' para a escolha de uma análise.


Agora, para resolver o problema subjacente com uma versão melhor formulada de uma pergunta como a que você tinha:

Todo o processo de analisar uma amostra para escolher um modelo está repleto de problemas - isso altera as propriedades de quaisquer escolhas subsequentes de análise com base no que você viu! por exemplo, para um teste de hipótese, seus níveis de significância, valores-p e poder não são exatamente o que você escolheria / calcularia , porque esses cálculos são baseados na análise que não se baseia nos dados.

Veja, por exemplo, Gelman e Loken (2014), " The Statistical Crisis in Science ", American Scientist , Volume 102, Número 6, p 460 (DOI: 10.1511 / 2014.111.460) que discute questões com essa análise dependente de dados.

Glen_b -Reinstate Monica
fonte
Olá Peter, desculpe, eu nem vi sua postagem lá.
Glen_b -Reinstala Monica 18/09
Esta conversa foi movida para o bate-papo .
Glen_b -Reinstate Monica 19/09/19
41

Você está perdendo o objetivo e provavelmente também está sendo "difícil", o que não é apreciado no setor. Ela está mostrando um exemplo de brinquedo para treiná-lo na avaliação da normalidade de um conjunto de dados, ou seja, se o conjunto de dados vem de uma distribuição normal . Observar os momentos de distribuição é uma maneira de verificar a normalidade, por exemplo, o teste de Jarque Bera é baseado nessa avaliação.

Sim, a distribuição normal é perfeitamente simétrica. No entanto, se você extrair uma amostra de uma distribuição normal verdadeira, essa amostra provavelmente não será perfeitamente simétrica. Este é o ponto que você está perdendo completamente. Você pode testar isso com muita facilidade. Apenas gere uma amostra da distribuição gaussiana e verifique seu momento. Eles nunca serão perfeitamente "normais", apesar da verdadeira distribuição ser tal.

Aqui está um exemplo bobo de Python. Estou gerando 100 amostras de 100 números aleatórios e depois obtendo suas médias e medianas. Imprimo a primeira amostra para mostrar que a média e a mediana são diferentes, depois mostro o histograma da diferença entre as médias e as medianas. Você pode ver que é bastante estreito, mas a diferença é basicamente nunca zero. Observe que os números são realmente provenientes de uma distribuição normal .

código:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

saídas: insira a descrição da imagem aqui

PS

Agora, se o exemplo da sua pergunta deve ser considerado normal ou não, depende do contexto. No contexto do que foi ensinado em sua sala de aula, você está errado, porque seu professor queria ver se você conhece a regra geral que ela lhe deu, que é que a inclinação e o excesso de curtose precisam estar em -1 a 1 alcance.

Pessoalmente, nunca usei essa regra geral (não posso chamá-la de teste) e nem sabia que ela existia. Aparentemente, algumas pessoas em alguns campos o usam. Se você conectasse os descritivos do conjunto de dados ao teste JB, isso teria rejeitado a normalidade. Portanto, você não está errado ao sugerir que o conjunto de dados não é normal, é claro, mas está errado no sentido de não ter aplicado a regra que era esperada de você com base no que foi ensinado na classe.

Se eu fosse você, educadamente abordaria seu professor e me explicaria, além de mostrar os resultados do teste JB. Eu reconheceria que, com base no teste dela, minha resposta estava errada, é claro. Se você tentar argumentar com ela da maneira como argumenta aqui, suas chances são muito baixas de obter o argumento de volta no teste, porque seu raciocínio é fraco sobre medianas, meios e amostras, isso mostra falta de entendimento entre amostras e populações. Se você mudar sua música, terá um caso.

Aksakal
fonte
23
(+1) Exatamente o ponto. Confundir a variável aleatória e uma amostra de realizações dessa variável aleatória.
Xian
15
t
Seria justo dizer que, se suas amostras fossem perfeitamente distribuídas normalmente, isso é uma evidência de que as amostras não são aleatórias?
JimmyJames
@JimmyJames, há 4 anos, houve um artigo na Science que afirmava que uma conversa de 20 minutos com um colportor gay pode mudar seus sentimentos em relação aos gays. Acontece que os autores compuseram os dados da pesquisa. Eles eram muito preguiçosos e gerou ruído perfeitamente Gaussian, e é assim que eles foram capturados - ver Irregularidades na LaCour (2014) por Broockman et al
Aksakal
@ Aksakal Não sei se é exatamente a mesma coisa que estou perguntando. Nesse caso, acho que o argumento nesse caso era que dados reais nunca são perfeitamente normais. Estou começando da sua afirmação "No entanto, se você extrair uma amostra de uma distribuição normal verdadeira, essa amostra provavelmente não será perfeitamente simétrica". Se eu estiver amostrando aleatoriamente a partir de uma distribuição normal perfeita, não esperaria que cada ponto de dados sucessivo caísse exatamente no lugar em que seria necessário preencher uma curva normal perfeita. Isso me pareceria um processo de seleção não aleatório.
JimmyJames
6

O professor está claramente fora do seu elemento e provavelmente não deveria estar ensinando estatística. Parece-me pior ensinar algo errado do que não ensinar nada.

Todas essas questões poderiam ser esclarecidas facilmente se a distinção entre "dados" e "processo que os produziu" fosse feita com mais clareza. Os dados visam o processo que produziu os dados. A distribuição normal é um modelo para esse processo.

Não faz sentido falar se os dados são normalmente distribuídos. Por um motivo, os dados são sempre discretos. Por outro motivo, a distribuição normal descreve uma infinidade de quantidades potencialmente observáveis, não um conjunto finito de quantidades observadas específicas.

Além disso, a resposta à pergunta "é o processo que produziu os dados como um processo normalmente distribuído " também é sempre "não", independentemente dos dados. Duas razões simples: (i) quaisquer medições que fazemos são necessariamente discretas, sendo arredondadas para algum nível. (ii) a simetria perfeita, como um círculo perfeito, não existe na natureza observável. Sempre existem imperfeições.

Na melhor das hipóteses, a resposta para a pergunta "o que esses dados dizem sobre a normalidade do processo de geração de dados" pode ser dada da seguinte forma: "esses dados são consistentes com o que esperaríamos ver se os dados realmente viessem de um processo normalmente distribuído ". Essa resposta corretamente não conclui que a distribuição é normal.

Esses problemas são facilmente compreendidos usando a simulação. Apenas simule dados de uma distribuição normal e compare-os com os dados existentes. Se os dados são contados (0,1,2,3, ...), obviamente o modelo normal está errado porque não produz números como 0,1,2,3, ...; em vez disso, produz números decimais que duram para sempre (ou pelo menos na medida em que o computador permitir). Essa simulação deve ser a primeira coisa que você faz ao aprender sobre a questão da normalidade. Em seguida, você pode interpretar mais corretamente os gráficos e as estatísticas de resumo.

Peter Westfall
fonte
10
Não rebaixei sua resposta, mas considere que você está julgando um professor de graduação pelas palavras de um aluno. Qual a probabilidade de um aluno estar certo e de um professor estar errado? Não é mais provável que o aluno esteja deturpando seu professor e o contexto da conversa?
Aksakal
Com base na minha experiência e nas palavras dos alunos, eu diria que é mais provável que o professor esteja errado. Há professores com pouco treinamento formal que ministram cursos, até cursos de graduação, em universidades de todos os lugares. Se as agências credenciadoras soubessem a verdade!
Peter Westfall
6
@ Torta de gambá, posso adivinhar o que é esperado de você. Provavelmente é um curso de 101-ish em estatísticas, então você deve observar a assimetria e a curtose. Se eles não estiverem próximos o suficiente de 0 e 3, você diz que não é normal. Isso é tudo. De fato, é isso que o teste JB faz de maneira mais formal. O objetivo do exercício é que você se lembre de que Gaussian tem 0 e curtose 3. Você está transformando esse exercício bobo, mas necessário, em uma discussão filosófica.
Aksakal
2
O comentário do professor "Como ambos estão entre os valores críticos de -1 e +1, esses dados são considerados normalmente distribuídos" definitivamente mostra (i) falta de entendimento ou (ii) vontade de ensinar o que ele sabe estar errado. Não acho que seja uma discussão filosófica questionar a preparação dos professores ou os métodos pedagógicos.
22418 Peter Westfall
3
A linguagem "consistência" é boa. Mas, como observou Possum-Pie, os professores dizem aos alunos "com base neste teste / diagnóstico, os dados são normais", o que está errado em várias questões. Os professores (psicólogos e outros) precisam (i) distinguir o processo de geração de dados dos dados, (ii) dizer aos alunos que os modelos normais e outros são modelos para o processo de geração de dados, (iii) dizer que a distribuição normal é sempre errado como modelo, independentemente do diagnóstico, e (iv) dizer a eles que o objetivo do exercício é diagnosticar o grau de não normalidade, não responder sim / não. Então explique por que isso importa.
27518 Peter Westfall
4

Eu sou engenheiro, portanto, no meu mundo, o estatístico aplicado é o que eu mais vejo e recebo o valor mais concreto. Se você vai trabalhar na área de aplicação, precisa ter uma sólida base na prática sobre a teoria: seja elegante ou não, a aeronave precisa voar e não cair.

Quando penso sobre essa questão, a maneira como eu a abordo, como muitos de meus especialistas técnicos também fizeram, é pensar em "como ela se parece no mundo real com a presença de ruído".

A segunda coisa que faço é, muitas vezes, fazer uma simulação que permita que eu entenda a questão.

Aqui está uma breve exploração:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Dá isto como a saída: insira a descrição da imagem aqui

Nota: tenha cuidado com o eixo x, porque ele é escalado em log, não em escala uniforme.

Eu sei que a média e a mediana são exatamente as mesmas. O código diz isso. A realização empírica é muito sensível ao tamanho da amostra e, se não houver amostras verdadeiramente infinitas, elas nunca poderão corresponder perfeitamente à teoria.

Você pode pensar se a incerteza na mediana envolve a média estimada ou vice-versa. Se a melhor estimativa da média estiver dentro do IC de 95% da estimativa para a mediana, os dados não poderão dizer a diferença. Os dados dizem que eles são os mesmos em teoria. Se você obtiver mais dados, veja o que diz.

EngrStudent - Restabelecer Monica
fonte
1
Gráfico interessante. Eu teria pensado que a Média seria geralmente maior do que a mediana no início, considerando a média persegue valores extremos ... em outras palavras, as barras vermelhas seriam médias e verdes seriam medianas. o que estou perdendo?
Possum-Pie
1
@ Torta de gambá Lembre-se de que os discrepantes podem estar em qualquer direção ... a distribuição normal tem uma cauda esquerda e uma cauda direita!
Silverfish
2
@ Essa é uma implementação bastante padrão de um boxplot.
Glen_b -Reinstala Monica
1
@Glen_b Eu já vi muitos livros didáticos que não ensinam o uso de pontos para discrepâncias, de modo que podem entender alguém que não está acostumado a eles. Mas, segundo Hadley , os pontos estavam presentes mesmo quando Tukey introduziu seu "enredo esquemático" em 1970.
Silverfish
1
Sim, uma versão sem discrepantes (apenas com base em um resumo de 5 números) seria essencialmente o enredo de Mary Spear (1952). (
Note que este documento não contém
4

Nas estatísticas médicas, apenas comentamos as formas e aparência das distribuições. O fato de nenhuma amostra finita discreta poder ser normal é irrelevante e pedante. Eu marcaria você errado por isso.

Se uma distribuição parece "na maior parte" normal, estamos confortáveis ​​em chamá-la de normal. Quando descrevo distribuições para um público não estatístico, estou muito confortável em chamar algo aproximadamente normal, mesmo quando sei que a distribuição normal não é o modelo de probabilidade subjacente, tenho a sensação de que ficaria do lado do seu professor aqui ... mas nós não possui histograma ou conjunto de dados para verificar.

Como uma dica, eu faria as seguintes inspeções com muita atenção:

  • quem são os outliers, quantos e quais são seus valores?
  • Os dados são bimodais?
  • Os dados parecem ter uma forma distorcida para que alguma transformação (como um registro) quantifique melhor a "distância" entre as observações?
  • Existe truncamento ou empilhamento aparente para que os ensaios ou laboratórios falhem na detecção confiável de um determinado intervalo de valores?
AdamO
fonte
Parece que em um campo com tanta matemática, as pessoas seriam mais rigorosas entre dizer que algo é "distribuição normal" que tem certas conotações muito estritas e dizer que é "quase normal". Eu nunca diria que 1.932 é 2. mas posso dizer que é quase 2. #
Possum-Pie
1
"Irrelevante e pedante"? Seriamente? Eu concordo com Possum-Pie. Eu também nunca diria que 1.932 é o mesmo que 2.0. Dizer que os dados são "normais" confunde tudo, desde o significado da distribuição normal como modelo para o processo que produziu os dados, até o fato real de que as distribuições normais nunca modelam com precisão nossos processos. Todos devem aprender que quando aprendem a distribuição normal para não fazer declarações tolas.
Peter Westfall
2
@ PeterWestfall Eu acho que parte da questão aqui é que "os dados vêm de uma distribuição normal" quase nunca é literalmente verdadeira, e mesmo que fosse verdade, provavelmente seria impossível provar conclusivamente. Portanto, como a frase dificilmente seria literalmente verdadeira, as pessoas usarão "os dados são normais" como uma abreviação conveniente para significar "os dados parecem suficientemente próximos da normalidade para fins práticos" ou "a distribuição normal é uma boa opção". modelo suficiente para o nosso DGP ".
Silverfish
Então, por que ensinar o que está errado, quando é tão simples ensinar o que é certo?
22618 Peter Westfall
3
@PeterW O ponto lingüístico não é apenas o ensino, é a maneira como a frase é usada (e deve ser interpretada) na vida cotidiana: "os dados são normais" quase nunca é usado para significar "eu tenho certeza de que a população da qual os dados foram amostrados é normal ", porque dificilmente poderia significar isso. Seria melhor se as pessoas diziam "os dados parece normal" ou mesmo "os olhares de dados normalish " (ou seja, parece perto o suficiente para normal que não se preocupam com o seu desvio da normalidade), mas particularmente em um ambiente aplicada as pessoas muitas vezes dizem coisas assim.
Silverfish
2

Eu acho que você e seu professor estão conversando em um contexto diferente. Igualdade de média = mediana = modo são características da distribuição teórica e essa não é a única característica. Você não pode dizer que, se qualquer distribuição acima da propriedade for mantida, a distribuição será normal. A distribuição T também é simétrica, mas não é normal. Então, você está falando sobre propriedades teóricas da distribuição normal, que sempre são verdadeiras para a distribuição normal.

Seu professor está falando sobre a distribuição de dados de amostra. Ele está certo, você nunca obterá dados na vida real, onde encontrará média = mediana = modo. Isto é simplesmente devido a erro de amostragem . Da mesma forma, é muito improvável que você obtenha zero coeficiente de assimetria para dados de amostra e zero excesso de curtose. Seu professor está apenas fornecendo uma regra simples para você ter uma idéia da distribuição a partir das estatísticas da amostra. O que não é verdade em geral (sem obter mais informações).

Neeraj
fonte
3
Dizem que o professor é femaie.
Nick Cox
Por que você não recebe média = mediana = modo é principalmente porque muitas distribuições são realmente distorcidas! (Estritamente, média = mediana = modo é possível com distribuições assimétricas também, apesar do que muitos livros dizem.)
Nick Cox
1
Discordo que falta de igualdade de média / mediana / modo = erro de amostragem. Suponha que você tenha amostrado aleatoriamente 52 casas de repouso para obter taxas de queda. Os lares 27, 34 e 52 são cronicamente com poucos funcionários e sempre apresentam quedas acima da média. Essas casas empurram média para a cauda e não é devido a um erro de amostragem.
Possum-Pie
1
Torta @Possum Os dados são secundários aqui, mas você está emitindo sinais diferentes em lugares diferentes. Aqui você está falando sobre vários lares de idosos - mas na sua pergunta você declara "em um lar de idosos". Ser incerto sobre detalhes incidentais não ajuda.
Nick Cox
@ Nick Cox Desculpe, eu esclareci. Número de quedas / ano em uma amostra de 52 casas de repouso
Possum-Pie
1

Para fins práticos, processos subjacentes como esse geralmente são aproximados com precisão pela distribuição normal, sem que ninguém levante uma sobrancelha.

No entanto, se você quiser ser pedante, o processo subjacente nesse caso não pode ser normalmente distribuído, porque não pode produzir valores negativos (o número de quedas não pode ser negativo). Eu não ficaria surpreso se de fato fosse pelo menos uma distribuição bimodal com o segundo pico próximo de zero.

Honza Brabec
fonte
É bimodal com modos em 4 quedas e 13 quedas. Não há quedas zero relatadas.
Possum-Pie