Razões para a distribuição normal dos dados

19

Quais são alguns teoremas que podem explicar (por exemplo, generativamente) por que se espera que os dados do mundo real sejam normalmente distribuídos?

Existem dois que eu conheço:

  1. O Teorema do Limite Central (claro), que nos diz que a soma de várias variáveis ​​aleatórias independentes com média e variância (mesmo quando não são identicamente distribuídas) tende a ser normalmente distribuída

  2. Sejam X e Y RV independentes, contínuos, com densidades diferenciáveis, de modo que a densidade de suas articulações dependa apenas de + . Então X e Y são normais.x2y2

(postagem cruzada de mathexchange )

Editar: para esclarecer, não estou afirmando quanto de dados do mundo real são normalmente distribuídos. Estou apenas perguntando sobre teoremas que podem dar uma ideia de que tipo de processos pode levar a dados normalmente distribuídos.

anônimo
fonte
7
Você pode encontrar material relacionado interessante em nosso tópico em stats.stackexchange.com/questions/4364 . Para evitar possíveis confusões entre alguns leitores, gostaria de acrescentar (e espero que essa seja sua intenção) que sua pergunta não seja lida como sugerindo que todos ou mesmo a maioria dos conjuntos de dados reais possam ser adequadamente aproximados por uma distribuição normal. Em vez disso, em certos casos, quando certas condições se mantêm, pode ser útil empregar uma distribuição normal como um quadro de referência para entender ou interpretar os dados: então, quais seriam essas condições?
whuber
Obrigado pelo link! E isso é exatamente correto, obrigado pelo esclarecimento. Vou editá-lo para a postagem original.
anônimo
@ user43228, "Naturalmente, existem muitas outras distribuições que surgem em problemas do mundo real que nem parecem normais. " askamathematician.com/2010/02/…
Pacerier

Respostas:

17

Muitas distribuições limitadoras de RVs discretos (poisson, binomial etc.) são aproximadamente normais. Pense em plinko. Em quase todos os casos em que a normalidade aproximada se mantém, a normalidade entra em ação apenas para amostras grandes.

A maioria dos dados do mundo real NÃO é normalmente distribuída. Um artigo de Micceri (1989) chamado " O unicórnio, a curva normal e outras criaturas improváveis " examinou 440 realizações em larga escala e medidas psicométricas. Ele encontrou muita variabilidade nas distribuições em seus momentos e não havia muita evidência da normalidade (mesmo que aproximada).

Em um artigo de 1977 de Steven Stigler chamado " Do Robust Estimators Work with Real Data ", ele usou 24 conjuntos de dados coletados de famosas tentativas do século 18 para medir a distância da Terra ao Sol e tentativas do século 19 para medir a velocidade da luz. Ele relatou distorção da amostra e curtose na Tabela 3. Os dados são de cauda pesada.

Nas estatísticas, assumimos a normalidade muitas vezes porque torna a probabilidade máxima (ou algum outro método) conveniente. O que os dois artigos citados acima mostram, no entanto, é que a suposição é freqüentemente tênue. É por isso que os estudos de robustez são úteis.

bsbk
fonte
2
A maior parte deste post é ótima, mas o parágrafo introdutório me incomoda porque poderia facilmente ser mal interpretado. Ele parece dizer - em vez de forma explícita - que, em geral, um "grande exemplo" vai olhar distribuídos normalmente. À luz de suas observações subsequentes, não acredito que você realmente quis dizer isso.
whuber
Eu deveria ter sido mais claro - não estou sugerindo que a maioria dos dados do mundo real seja normalmente distribuída. Mas esse é um ótimo ponto a ser levantado. E eu estou assumindo o que você quer dizer é que a distribuição binomial com n grande é normal, e que a distribuição de poisson com média grande é normal. Que outras distribuições tendem à normalidade?
anônimo
Obrigado, editei o primeiro parágrafo. Veja Wald e Wolfowitz (1944) para um teorema de formas lineares sob permutação, por exemplo. Ou seja, eles mostraram que a estatística t de duas amostras sob permutação é assintoticamente normal.
bsbk
Uma distribuição de amostragem não é um "conjunto de dados do mundo real"! Talvez a dificuldade que eu esteja tendo com aparentes inconsistências em seu post decorra dessa confusão entre distribuição e dados. Talvez decorra da falta de clareza sobre o processo "limitador" que você realmente tem em mente.
whuber
3
A pergunta original era sobre explicar "generosamente" como os dados normais do mundo real podem ocorrer. É concebível que dados reais possam ser gerados a partir de um processo binomial ou de poisson, os quais podem ser aproximados pela distribuição normal. O op pediu outros exemplos e o que veio à mente foi a distribuição de permutações, que é assintoticamente normal (na ausência de vínculos). Não consigo pensar de maneira imediata que dados reais seriam gerados a partir dessa distribuição, então talvez esse seja um trecho.
bsbk
10

Há também uma justificativa teórica da informação para o uso da distribuição normal. Dada a média e a variância, a distribuição normal tem entropia máxima entre todas as distribuições de probabilidade com valor real. Existem muitas fontes discutindo essa propriedade. Um breve pode ser encontrado aqui . Uma discussão mais geral da motivação para o uso da distribuição gaussiana envolvendo a maioria dos argumentos mencionados até agora pode ser encontrada neste artigo da revista Signal Processing.

Igor
fonte
6
Isso é ao contrário, como eu o entendo. É sobre como fazer da suposição de normalidade um sentido estritamente definido, uma suposição fraca. Não vejo o que isso implica nos dados do mundo real. Você também pode argumentar que as curvas são normalmente retas, porque essa é a suposição mais simples que você pode fazer sobre a curvatura. A epistemologia não limita a ontologia! Se a referência que você citar vai além disso, explique os argumentos.
Nick Cox
3

Na física, é o CLT, que é geralmente citado como uma razão para ter erros normalmente distribuídos em muitas medições.

As duas distribuições de erros mais comuns na física experimental são normais e Poisson. O último é geralmente encontrado em medições de contagem, como decaimento radioativo.

Outra característica interessante dessas duas distribuições é que uma soma de variáveis ​​aleatórias de Gaussian e Poisson pertence a Gaussian e Poisson.

Existem vários livros sobre estatística em ciências experimentais como esta : Gerhard Bohm, Günter Zech, Introdução à estatística e análise de dados para físicos, ISBN 978-3-935702-41-6

Aksakal
fonte
0

O CLT é extremamente útil ao fazer inferências sobre coisas como a população, porque chegamos lá computando algum tipo de combinação linear de várias medições individuais. Entretanto, quando tentamos inferir sobre observações individuais, especialmente as futuras ( por exemplo , intervalos de previsão), os desvios da normalidade são muito mais importantes se estivermos interessados ​​nas caudas da distribuição. Por exemplo, se tivermos 50 observações, faremos uma grande extrapolação (e salto de fé) quando dizemos algo sobre a probabilidade de uma observação futura ser pelo menos três desvios-padrão da média.

Emil Friedman
fonte