De onde vem a função gaussiana?

9

Eu li inúmeras páginas no google e não consigo encontrar uma resposta satisfatória. Também li http://castatistics.wikispaces.com/file/view/normal+der..pdf , mas duvido que essa tenha sido a motivação original para a função gaussiana. Atualmente, sou estudante de graduação e meu livro apenas diz que a função f (x) = ae - (x - b) ^ 2 / c é usada como função de densidade de probabilidade para uma curva normal. Mas meu livro não me dá pistas de onde essa função realmente veio. Qual foi a motivação original para o desenvolvimento dessa função? Alguém pode, por favor, oferecer uma prova de que eu realmente posso entender com etapas claramente identificadas? Eu tenho uma compreensão do cálculo básico e sou iniciante quando se trata de estatística. Por favor, não há provas complicadas.

Andrew Kudwitt
fonte
2
Em resposta a uma pergunta muito semelhante, ofereci stats.stackexchange.com/a/3904 , que você pode achar útil. A rigor, isso não responde à sua pergunta sobre "motivação": isso ocorreu várias gerações depois de De Moivre, com o desenvolvimento de Gauss do método dos mínimos quadrados.
whuber

Respostas:

4

A distribuição normal é a distribuição que é esperada quando as medições são feitas a partir de um grande número de componentes de 'ruído', todos distribuídos da mesma maneira que os outros.

Às vezes, o princípio é ilustrado com um exemplo usando dados. Jogue um dado um grande número de vezes e trace a distribuição dos valores. Supondo que o dado seja justo, você terminará com uma distribuição uniforme (discreta) de 1 a 6. Agora faça isso novamente, mas use dois dados. Você obtém uma distribuição triangular passo a passo de 2 a 12. Adicione um terceiro dado e a distribuição é um pouco em forma de sino e os passos são pequenos porque agora existem 17 valores possíveis diferentes. Com quatro dados, a distribuição se parece muito com uma distribuição normal e, com um número infinito de dados, é uma distribuição normal. Em algum lugar entre quatro e um número infinito de dados (geralmente digo 12) são necessários para uma distribuição que, para fins práticos, é indistinguível da distribuição normal dada pela fórmula normal.

Muitas medições biológicas e físicas têm muitas fontes de imprecisão e ruído e, portanto, as distribuições dessas medições serão aproximadamente normais, desde que as distribuições desses componentes sejam semelhantes. Se um componente de ruído for muito maior que os outros, a distribuição normal não resultará. Imagine se um dado de uma dúzia tivesse faces marcadas de 100 a 600 em vez de 1 a 6. Esse dado dominaria os outros onze e, portanto, a distribuição da soma de suas faces superiores seria uma mistura óbvia de (discreto) uniforme 100 a 600 e quase contínuo quase normal 11 a 66. As distribuições das variações de componentes devem ser semelhantes, mesmo que não precisem ser normais (elas não precisam ser nem quase normais, se houver um muitos deles).

(Vale a pena notar que muitas fontes de variabilidade têm uma distribuição logarítmica e tantas medições em biologia e física são mais próximas do logarítmico do que o normal).

Michael Lew
fonte