Como os cientistas descobriram o formato da função de densidade de probabilidade de distribuição normal?

36

Esta é provavelmente uma pergunta amadora, mas estou interessado em como os cientistas criaram a forma da função de densidade de probabilidade de distribuição normal? Basicamente, o que me incomoda é que, para alguém, talvez seja mais intuitivo que a função de probabilidade dos dados normalmente distribuídos tenha a forma de um triângulo isósceles, em vez de uma curva de sino, e como você provaria a essa pessoa que a função de densidade de probabilidade da todos os dados normalmente distribuídos têm formato de sino? Por experimento? Ou por alguma derivação matemática?

Afinal, o que realmente consideramos dados normalmente distribuídos? Dados que seguem o padrão de probabilidade de uma distribuição normal ou algo mais?

Basicamente, minha pergunta é por que a função de densidade de probabilidade de distribuição normal tem um formato de sino e não qualquer outro? E como os cientistas descobriram em quais cenários da vida real a distribuição normal pode ser aplicada, experimentando ou estudando a natureza de vários dados em si?

Portanto, achei esse link realmente útil para explicar a derivação da forma funcional da curva de distribuição normal e, assim, responder à pergunta "Por que a distribuição normal se parece com ela e não com mais nada?". Raciocínio verdadeiramente alucinante, pelo menos para mim.

normal-distribution history ahra
fonte

2

Confira esta pergunta - não é verdade afirmar que apenas a distribuição normal é "em forma de sino".

Silverfish

11

A distribuição normal tem algumas propriedades estatísticas de vital importância, que a tornam um objeto de estudo especial e também significa que ela geralmente surge "naturalmente", por exemplo, como o caso limitante de outras distribuições. Veja em particular o Teorema do Limite Central . No entanto, não é a única distribuição que atinge o pico no meio e tem caudas de ambos os lados. As pessoas geralmente assumem que esses dados são normais porque o histograma "parece em forma de sino", mas minha resposta vinculada mostra como existem muitas outras distribuições candidatas para esses conjuntos de dados.

Silverfish

4

Observe que os estatísticos não descobriram a distribuição normal observando muitos conjuntos de dados e percebendo que essa função de densidade era empiricamente um bom ajuste para muitos deles. Como você se pergunta em sua pergunta, houve um processo de investigação matemática de certos problemas na teoria das probabilidades, para os quais a distribuição normal "aparece" como resposta. Isso está bem explicado, por exemplo, nesta resposta aqui .

Silverfish

3

E, basicamente, se alguém me pedisse para explicar por que a distribuição normal é "normal", eu precisaria explicar a história da distribuição normal, que é longa e complexa por si só, a partir da distribuição binomial e assim por diante, e então talvez prove o teorema do limite central e mostre que a distribuição normal é aplicável no estudo de muitas situações na vida real.

ahra

5

Você pode visualizar a forma de uma distribuição normal usando um desses dispositivos bacanas chamados placas Galton. Na verdade, é uma distribuição binomial, mas, você sabe, o teorema do limite central.

Federico Poloni

21

" A evolução da distribuição normal " de SAUL STAHL é a melhor fonte de informação para responder a praticamente todas as perguntas do seu post. Recitarei alguns pontos apenas para sua conveniência, porque você encontrará a discussão detalhada dentro do artigo.

Esta é provavelmente uma pergunta amadora

Não, é uma pergunta interessante para quem usa estatísticas, porque isso não é abordado em detalhes em nenhum lugar nos cursos padrão.

Basicamente, o que me incomoda é que, para alguém, talvez seja mais intuitivo que a função de probabilidade dos dados normalmente distribuídos tenha a forma de um triângulo isósceles, em vez de uma curva de sino, e como você provaria a essa pessoa que a função de densidade de probabilidade da todos os dados normalmente distribuídos têm formato de sino?

Olhe para esta foto do jornal. Ele mostra as curvas de erro criadas por Simpson antes da descoberta de Gaussian (Normal) para analisar dados experimentais. Então, sua intuição está no local.

Por experimento?

Sim, é por isso que eles foram chamados de "curvas de erro". O experimento foi medições astronômicas. Astrônomos lutaram com erros de medição por séculos.

Ou por alguma derivação matemática?

Mais uma vez, SIM! Para encurtar a história: a análise de erros nos dados astronômicos levou Gauss à sua distribuição (também conhecida como Normal). Estas são as suposições que ele usou:

Aliás, Laplace usou algumas abordagens diferentes e também apresentou sua distribuição enquanto trabalhava com dados astronômicos:

Quanto ao motivo pelo qual a distribuição normal aparece no experimento como erros de medição, aqui está uma explicação típica do físico "ondulado à mão" (uma citação de Gerhard Bohm, Günter Zech, Introdução à estatística e análise de dados para físicos p.85):

Muitos sinais experimentais seguem, para uma aproximação muito boa, uma distribuição normal. Isso se deve ao fato de que consistem na soma de muitas contribuições e uma conseqüência do teorema do limite central.

Aksakal
fonte

2

A referência de Stahl aborda a questão original muito do ângulo em que foi colocada - é uma descoberta muito boa.

Silverfish

44

Você parece supor na sua pergunta que o conceito de distribuição normal existia antes da distribuição ser identificada e as pessoas tentaram descobrir o que era. Não está claro para mim como isso funcionaria. [Editar: há pelo menos um sentido que poderíamos considerar haver uma "busca por uma distribuição", mas não é "uma busca por uma distribuição que descreva muitos e muitos fenômenos"]

Este não é o caso; a distribuição era conhecida antes de ser chamada de distribuição normal.

como você provaria a uma pessoa que a função de densidade de probabilidade de todos os dados normalmente distribuídos tem o formato de um sino

A função de distribuição normal é aquela que costuma ser chamada de "forma de sino" - todas as distribuições normais têm a mesma "forma" (no sentido de que diferem apenas em escala e localização).

Os dados podem parecer mais ou menos "em forma de sino" na distribuição, mas isso não o torna normal. Muitas distribuições não normais parecem "em forma de sino".

As distribuições populacionais reais das quais os dados são extraídos provavelmente nunca são realmente normais, embora às vezes seja uma aproximação bastante razoável.

Isso geralmente acontece com quase todas as distribuições que aplicamos às coisas no mundo real - elas são modelos , não fatos sobre o mundo. [Como exemplo, se fizermos certas suposições (aquelas de um processo de Poisson), podemos derivar a distribuição de Poisson - uma distribuição amplamente usada. Mas essas suposições são exatamente satisfeitas? Geralmente, o melhor que podemos dizer (nas situações certas) é que elas são quase verdadeiras.]

o que realmente consideramos dados normalmente distribuídos? Dados que seguem o padrão de probabilidade de uma distribuição normal ou algo mais?

Sim, para ser realmente distribuído normalmente, a população da qual a amostra foi extraída teria que ter uma distribuição que tenha a forma funcional exata de uma distribuição normal. Como resultado, qualquer população finita não pode ser normal. Variáveis que necessariamente delimitadas não podem ser normais (por exemplo, o tempo gasto para tarefas específicas, comprimentos de determinadas coisas não podem ser negativos, portanto, na verdade, não podem ser normalmente distribuídos).

talvez seja mais intuitivo que a função de probabilidade dos dados normalmente distribuídos tenha a forma de um triângulo isósceles

Não vejo por que isso é necessariamente mais intuitivo. É certamente mais simples.

Ao desenvolver pela primeira vez modelos de distribuição de erros (especificamente para astronomia no período inicial), os matemáticos consideraram uma variedade de formas em relação às distribuições de erros (incluindo em um ponto inicial uma distribuição triangular), mas em grande parte desse trabalho era matemática (em vez que a intuição) que foi usada. Laplace examinou distribuições exponenciais e normais duplas (entre várias outras), por exemplo. Da mesma forma, Gauss usou a matemática para derivá-la na mesma época, mas em relação a um conjunto diferente de considerações que Laplace.

No sentido estrito em que Laplace e Gauss estavam considerando "distribuições de erros", poderíamos considerar uma "busca por uma distribuição", pelo menos por um tempo. Ambos postularam algumas propriedades para uma distribuição de erros que consideravam importantes (Laplace considerou uma sequência de critérios um pouco diferentes ao longo do tempo) levou a diferentes distribuições.

Basicamente, minha pergunta é por que a função de densidade de probabilidade de distribuição normal tem um formato de sino e não qualquer outro?

A forma funcional da coisa que é chamada função de densidade normal confere essa forma. Considere o normal padrão (por simplicidade; todos os outros normais têm a mesma forma, diferindo apenas em escala e localização):

f_{Z} (z) = k \cdot e^{- \frac{1}{2} z^{2}}; - \infty < z < \infty

$f_Z(z) = k \cdot e^{-\frac12 z^2};\;-\infty<z<\infty$

(onde é simplesmente uma constante escolhida para formar a área total 1) $k$

isso define o valor da densidade em todos os valores de ; portanto, descreve completamente o formato da densidade. A esse objeto matemático é a que ligamos o rótulo "distribuição normal". Não há nada de especial no nome; é apenas um rótulo que atribuímos à distribuição. Ele tem muitos nomes (e ainda é chamado de coisas diferentes por pessoas diferentes). $x$

Enquanto algumas pessoas consideram a distribuição normal como algo "usual", na verdade, é apenas em conjuntos particulares de situações que você até a vê como uma aproximação.

A descoberta da distribuição é geralmente creditada a de Moivre (como uma aproximação ao binômio). Com efeito, ele derivou a forma funcional ao tentar aproximar os coeficientes binomiais (/ probabilidades binomiais) para aproximar cálculos tediosos, mas - enquanto ele efetivamente deriva a forma da distribuição normal - ele não parece ter pensado em sua aproximação como uma distribuição de probabilidade, embora alguns autores sugiram que sim. É necessária uma certa quantidade de interpretação, para que haja margem para diferenças nessa interpretação.

Gauss e Laplace trabalharam nisso no início de 1800; Gauss escreveu sobre isso em 1809 (em conexão com a distribuição para a qual a média é o MLE do centro) e Laplace em 1810, como uma aproximação à distribuição de somas de variáveis aleatórias simétricas. Uma década depois, Laplace fornece uma forma inicial de teorema do limite central, para variáveis discretas e contínuas.

Os nomes antigos para a distribuição incluem a lei do erro , a lei da frequência dos erros , e também foi nomeado após Laplace e Gauss, às vezes em conjunto.

O termo "normal" foi usado para descrever a distribuição de forma independente por três autores diferentes na década de 1870 (Peirce, Lexis e Galton), o primeiro em 1873 e os outros dois em 1877. Isso ocorre mais de sessenta anos após o trabalho de Gauss e Laplace e mais que o dobro desde a aproximação de de Moivre. O uso de Galton provavelmente foi o mais influente, mas ele usou o termo "normal" em relação a ele apenas uma vez no trabalho de 1877 (principalmente o chamado "lei do desvio").

No entanto, na década de 1880, Galton usou o adjetivo "normal" em relação à distribuição várias vezes (por exemplo, como a "curva normal" em 1889) e, por sua vez, teve muita influência em estatísticos posteriores no Reino Unido (especialmente Karl Pearson ) Ele não disse por que usou o termo "normal" dessa maneira, mas presumivelmente o quis dizer no sentido de "típico" ou "usual".

O primeiro uso explícito da frase "distribuição normal" parece ser de Karl Pearson; ele certamente o usa em 1894, embora afirme ter usado muito antes (uma afirmação que eu consideraria com alguma cautela).

Referências:

Miller, Jeff
"Usos mais conhecidos de algumas das palavras da matemática:"
Distribuição normal (verbete de John Aldrich)
http://jeff560.tripod.com/n.html

Stahl, Saul (2006),
"A evolução da distribuição normal",
Mathematics Magazine , vol. 79, Nº 2 (abril), pp 96-113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf

Distribuição normal, (1 de agosto de 2016).
Na Wikipedia, A Enciclopédia Livre.
Recuperado em 12:02, 3 de agosto de 2016, em
https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History

Hald, A (2007),
"Aproximação normal de De Moivre ao binômio, 1733, e sua generalização",
In: A History of Parametric Statistical Inference from Bernoulli to Fisher, 1713-1935; pp 17-24

[Você pode observar discrepâncias substanciais entre essas fontes em relação à conta de Moivre]

Glen_b -Reinstate Monica
fonte

Obrigado pela resposta detalhada! Analisei mais detalhadamente como a forma da distribuição normal foi derivada e encontrei este documento cursos.ncssm.edu/math/Talks/PDFS/normal.pdf , e tenho um problema para entender como podemos assumir que o os erros não dependem da orientação do sistema de coordenadas (uma suposição que permite uma conclusão importante posteriormente), quando me parece que essa suposição seria válida apenas no exemplo de dardos, mas não no exemplo de erros experimentais acidentais .

precisa saber é

Na verdade, toda a abordagem de dardos me confunde, pois estou estudando a distribuição normal no contexto de erros experimentais acidentais. Suponho que a abordagem de dardos pressupõe que você possa cometer erros independentes em duas dimensões, o que é bom no contexto usado, mas não está claro para mim o que seria traduzido no contexto de erros experimentais em que você tem uma variável dependente e independente o que significa que você pode cometer um erro apenas em uma dimensão.

ahra

1

Ótimo uso de referências. 1

Aaron Hall

2

Eu acho que o "teorema do limite central" deve ser mencionado aqui em algum lugar, já que o OP parece (pelo menos em parte) estar perguntando por que essa distribuição específica é tão prevalente.

joc

1

@joc Não vejo a pergunta perguntando sobre prevalência ou até sugerindo uma pergunta sobre isso. No entanto, falo sobre o trabalho de De Moivre relacionado ao binomial e sobre o trabalho de Laplace relativo a aproximações normais para somas de variáveis aleatórias simétricas ... que estão mais diretamente relacionadas à questão. No entanto, acrescentarei uma frase relacionada ao trabalho de Laplace sobre o problema (embora não seja chamado assim por mais um século).

Glen_b -Reinstala Monica

11

A distribuição "normal" é definida como aquela distribuição específica.

A questão é: por que esperaríamos que essa distribuição em particular fosse de natureza comum e por que é tão frequentemente usada como uma aproximação, mesmo quando os dados reais não seguem exatamente essa distribuição? (Dados reais geralmente são encontrados com uma "cauda gorda", ou seja, valores longe da média são muito mais comuns do que a distribuição normal previa).

Em outras palavras, o que há de especial na distribuição normal?

O normal possui muitas propriedades estatísticas "agradáveis" (veja, por exemplo, https://en.wikipedia.org/wiki/Central_limit_theorem ), mas o IMO mais relevante é o fato de que é a função "entropia máxima" para qualquer distribuição com uma dada média e variância. https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution

Para expressar isso na linguagem comum, se você receber apenas a média (ponto central) e a variação (largura) de uma distribuição e não assumir mais nada sobre isso, será forçado a desenhar uma distribuição normal. Qualquer outra coisa requer informações adicionais (no sentido da teoria da informação de Shannon ), por exemplo, distorção, para determiná-la.

O princípio da entropia máxima foi introduzido por ET Jaynes como uma maneira de determinar priores razoáveis na inferência bayesiana, e acho que ele foi o primeiro a chamar a atenção para essa propriedade.

Veja isso para uma discussão mais aprofundada: http://www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf

gareth
fonte

6

"Em outras palavras, se você receber apenas a média (ponto central) e a variação (largura) de uma distribuição, e não assumir mais nada sobre isso, será forçado a desenhar uma distribuição normal". Eu acho que depende de qual é a definição de "forçado". Você pode ser forçado. Eu não seria. O que você descreveu é o equivalente moral de ser "forçado" a assumir que uma função é linear quando você não conhece sua forma ou que variáveis aleatórias são independentes quando você não conhece sua dependência exata. Não tenho, não sou e não serei forçado a fazer nenhuma dessas suposições.

Mark L. Stone

5

@ Neil Eu acredito que parte do ponto de vista de Mark pode ser que justificativa não é compulsão.

whuber

5

@ Neil Longe disso! Primeiro, você deve assumir que o princípio da entropia máxima é útil e aplicável ao seu problema estatístico. Em seguida, você deve estar absolutamente certo de que não há mais nada que possa assumir sobre a distribuição. Ambos são problemáticos. (Na maioria dos problemas estatísticos que encontrei - fora do campo da física teórica - o primeiro não era verdadeiro; e nunca vi um problema do mundo real onde o último seja o caso.)

whuber

1

@ Mark Neil e whuber. Eu tentei esclarecer esse parágrafo. Penso que "não assuma mais nada" é uma explicação razoável da linguagem comum sobre o que o princípio da entropia máxima está tentando fazer. Sendo uma linguagem comum, é claro que você poderia colocar uma interpretação diferente nela. É por isso que precisamos de matemática. A afirmação mais precisa é que não estamos adicionando informações, no sentido de Shannon. Os links explicam isso ainda mais.

Gareth

1

@gareth uma distribuição uniforme de todos os reais (o que eu acho que você quis dizer em seu último comentário) seria uma distribuição altamente imprópria. Sua reivindicação de entropia máxima como seu motorista em direção a uma distribuição normal faz uma suposição importante; por que é mais forte do que assumir outra coisa, como alcance mínimo?

Henry

3

A distribuição normal (também conhecida como " distribuição gaussiana ") tem uma base matemática sólida. O Teorema do Limite Central diz que, se você tiver um conjunto finito de n variáveis aleatórias independentes e identicamente distribuídas, com média e variância específicas, e tirar a média dessas variáveis aleatórias, a distribuição do resultado convergirá para uma Distribuição Gaussiana como n vai para o infinito. Não há suposições aqui, uma vez que a derivação matemática leva a essa função de distribuição específica e a nenhuma outra.

Para colocar isso em termos mais tangíveis, considere uma única variável aleatória, como jogar uma moeda justa (2 resultados igualmente possíveis). As chances de obter um resultado específico são 1/2 para cara e 1/2 para coroa.

Se você aumentar o número de moedas e acompanhar o número total de cabeças obtidas em cada tentativa, obterá uma Distribuição Binomial , que tem aproximadamente o formato de sino. Apenas faça um gráfico com o número de cabeças ao longo do eixo x e o número de vezes que você inverte tantas cabeças ao longo do eixo y.

Quanto mais moedas você usar, e quanto mais vezes você jogar as moedas, mais próximo o gráfico parecerá uma curva de sino gaussiana. É isso que o Teorema do Limite Central afirma.

O incrível é que o teorema não depende de como as variáveis aleatórias são realmente distribuídas, desde que cada uma das variáveis aleatórias tenha a mesma distribuição. Uma ideia-chave no teorema é que você está adicionando ou fazendo a média das variáveis aleatórias. Outro conceito-chave é que o teorema está descrevendo o limite matemático à medida que o número de variáveis aleatórias se torna cada vez maior. Quanto mais variáveis você usar, mais próxima a distribuição se aproxima de uma distribuição normal.

Eu recomendo que você faça uma aula de Estatística Matemática se quiser ver como os matemáticos determinaram que a Distribuição Normal é realmente a função matematicamente correta para a curva de sino.

user126665
fonte

Obrigado pela sua contribuição. Seria correto se você explicasse que a distribuição da soma (ou média) deve ser padronizada. Caso contrário, a distribuição da soma não se aproxima de um limite e a distribuição da média se aproxima de uma constante. Mas como este post responde às perguntas que foram feitas? (Na verdade, existem várias questões que estão sendo colocadas e todos eles são confuso e vago, mas eles parecem estar se perguntando sobre como a fórmula para o PDF Gaussian foi descoberto ou derivada.)

whuber

2

Existem algumas respostas excelentes neste tópico. Não posso deixar de sentir que o OP não estava fazendo a mesma pergunta que todo mundo quer responder. Eu entendo isso, no entanto, porque essa é quase uma das perguntas mais emocionantes de responder - na verdade, eu a encontrei porque esperava que alguém tivesse a pergunta "Como sabemos que o PDF normal é um PDF?" e eu procurei por isso. Mas acho que a resposta para a pergunta pode ser demonstrar a origem da distribuição normal.

$n$ $n$ $np$ $np(1-p)$ $n\to\infty$

$n\to\infty$ $p\to0$ $np=1$

$n=10$ $p=0.5$ $n=100$ $p=0.5$ $n$

Se eu jogar 100 moedas no chão no momento e contar quantas caras recebo, posso contar 0 caras ou 100 cabeças, mas é bem mais provável que eu conte um número no meio. Você vê por que esse histograma deve ser em forma de sino?

birdsoong
fonte

+1 - no entanto, observe que discuto de Moivre em várias partes da minha resposta. Você pode achar interessante a nota final em minha resposta em relação às discrepâncias nas referências - vale a pena examinar o que De Moivre escreveu para ver até que ponto as diferentes caracterizações de seu trabalho parecem se sustentar. Discussão específica sobre por que o cdf binomial se torna bem aproximado por um cdf normal em condições adequadas é discutida em Por que uma distribuição binomial tem a forma de sino?

Glen_b -Reinstate Monica

1

Mencionaria também a derivação de Maxwell-Herschel da distribuição normal multivariada independente de duas suposições:

A distribuição não é afetada pela rotação do vetor.
Os componentes do vetor são independentes.

Aqui está a exposição de Jaynes

Roah
fonte

Como os cientistas descobriram o formato da função de densidade de probabilidade de distribuição normal?

Respostas: