Penso que este é um tópico fascinante e não o compreendo completamente. Que lei da física faz para que tantos fenômenos naturais tenham distribuição normal? Parece mais intuitivo que eles teriam distribuição uniforme.
É tão difícil para mim entender isso e sinto que estou perdendo algumas informações. Alguém pode me ajudar com uma boa explicação ou me vincular a um livro / vídeo / artigo?
Respostas:
Deixe-me começar negando a premissa. Robert Geary provavelmente não exagerou o caso quando disse (em 1947) " ... normalidade é um mito; nunca houve e nunca haverá uma distribuição normal. " -
a distribuição normal é um modelo *, um aproximação que às vezes é mais ou menos útil.
O fato de alguns fenômenos serem aproximadamente normais pode não ser uma grande surpresa, uma vez que somas de efeitos independentes [ou mesmo efeitos não muito correlacionados] deveriam, se houver muitos deles e nenhum tiver uma variação substancial em comparação com a variação do A soma do resto que podemos ver a distribuição tende a parecer mais normal.
O teorema do limite central (que é sobre a convergência para uma distribuição normal de uma amostra padronizada média conforme vai para o infinito sob algumas condições amenas) pelo menos sugere que podemos ver uma tendência para essa normalidade com tamanhos de amostra suficientemente grandes, mas finitos.n
Obviamente, se os meios padronizados forem aproximadamente normais, somas padronizadas serão; esse é o motivo do raciocínio "soma de muitos efeitos". Portanto, se houver muitas pequenas contribuições para a variação e elas não estiverem altamente correlacionadas, você poderá vê-la.
O teorema de Berry-Esseen nos dá uma afirmação sobre ele (convergência para distribuições normais) que realmente acontece com médias de amostra padronizadas para dados iid (sob condições um pouco mais rigorosas do que para o CLT, pois exige que o terceiro momento absoluto seja finito), como além de nos contar sobre a rapidez com que isso acontece. Versões subseqüentes do teorema lidam com componentes distribuídos de maneira não idêntica na soma , embora os limites superiores do desvio da normalidade sejam menos restritos.
Menos formalmente, o comportamento de convoluções com distribuições razoavelmente boas nos dá motivos adicionais (embora intimamente relacionados) para suspeitar que possa tender a ser uma aproximação justa em amostras finitas em muitos casos. A convolução atua como uma espécie de operador de "difusão" com o qual as pessoas que usam a estimativa de densidade de kernel em vários kernels estarão familiarizadas; depois de padronizar o resultado (para que a variação permaneça constante cada vez que você faz uma operação assim), há uma progressão clara em direção a formas cada vez mais simétricas de colinas à medida que você suaviza repetidamente (e não importa muito se você mudar o kernel toda vez).
Terry Tao faz uma boa discussão sobre versões do teorema do limite central e do teorema de Berry-Esseen aqui , e ao longo do caminho menciona uma abordagem para uma versão não independente do Berry-Esseen.
Portanto, há pelo menos uma classe de situações em que podemos esperar vê-lo, e razões formais para pensar que realmente tenderão a acontecer nessas situações. No entanto, na melhor das hipóteses, qualquer sentido de que o resultado de "somas de muitos efeitos" seja normal é uma aproximação. Em muitos casos, é uma aproximação bastante razoável (e, em casos adicionais, embora a aproximação da distribuição não seja próxima, alguns procedimentos que assumem a normalidade não são especialmente sensíveis à distribuição dos valores individuais, pelo menos em amostras grandes).
Existem muitas outras circunstâncias em que os efeitos não "adicionam" e podemos esperar que outras coisas aconteçam; por exemplo, em muitos dados financeiros, os efeitos tendem a ser multiplicativos (os efeitos movimentam valores em termos percentuais, como juros, inflação e taxas de câmbio, por exemplo). Lá, não esperamos normalidade, mas às vezes podemos observar uma aproximação aproximada da normalidade na escala logarítmica. Em outras situações, nenhum dos dois pode ser apropriado, mesmo em um sentido aproximado. Por exemplo, os tempos entre eventos geralmente não serão bem aproximados pela normalidade ou normalidade dos logs; não há "somas" nem "produtos" de efeitos a serem discutidos aqui. Existem inúmeros outros fenômenos nos quais podemos argumentar sobre um tipo particular de "lei" em circunstâncias particulares.
fonte
Há um famoso ditado de Gabriel Lippmann (físico, ganhador do Nobel), como disse Poincaré:
Parece que não temos essa citação no nosso tópico Lista de citações estatísticas, por isso achei que seria bom publicá-la aqui.
fonte
A distribuição normal é um lugar comum nas ciências naturais. A explicação usual é a razão pela qual isso ocorre nos erros de medição, através de alguma forma de raciocínio de números grandes ou do teorema do limite central (CLT), que geralmente é assim: "uma vez que os resultados do experimento são impactados por um número infinitamente grande de distúrbios provenientes de fontes não relacionadas. sugere que os erros normalmente seriam distribuídos ". Por exemplo, aqui está um trecho de Métodos Estatísticos em Análise de Dados de WJ Metzger:
No entanto, como você deve saber, isso não significa que toda distribuição será normal, é claro. Por exemplo, a distribuição de Poisson é tão comum na física quando se lida com processos de contagem. Na espectroscopia, a distribuição de Cauchy (aka Breit Wigner) é usada para descrever a forma dos espectros de radiação e assim por diante.
Percebi isso depois de escrever: todas as três distribuições mencionadas até agora (Gaussian, Poisson, Cauchy) são distribuições estáveis , com Poisson sendo discretamente estável . Agora que pensei sobre isso, parece uma qualidade importante de uma distribuição que sobreviverá às agregações: se você adicionar vários números de Poisson, a soma será um Poisson. Isso pode "explicar" (em certo sentido) por que é tão onipresente.
Nas ciências não naturais, você deve ter muito cuidado ao aplicar a distribuição normal (ou qualquer outra) por várias razões. Particularmente as correlações e dependências são um problema, pois podem quebrar as suposições do CLT. Por exemplo, no setor financeiro, é sabido que muitas séries parecem normais, mas têm muito mais peso. caudas , o que é um grande problema no gerenciamento de riscos.
Finalmente, existem razões mais sólidas nas ciências naturais para ter uma distribuição normal do que um tipo de raciocínio "acenando com a mão" que citei anteriormente. Considere, movimento browniano. Se os choques são verdadeiramente independentes e infinitesimais, inevitavelmente a distribuição de um caminho observável terá distribuição normal devido à CLT, veja, por exemplo, a Eq. (10) na famosa obra de Einstein " INVESTIGAÇÕES SOBRE A TEORIA DO MOVIMENTO BROWNIANO ". Ele nem se deu ao trabalho de chamá-lo pelo nome de hoje "gaussiano" ou "normal".
Portanto, não se surpreenda ao obter reações muito diferentes ao uso da distribuição gaussiana de pesquisadores de diferentes áreas. Em alguns campos, como a física, espera-se que certos fenômenos estejam ligados naturalmente à distribuição gaussiana, com base em uma teoria muito sólida, apoiada por uma quantidade enorme de observações. Em outros campos, a distribuição Normal é usada por sua conveniência técnica, propriedades matemáticas práticas ou outros motivos questionáveis.
fonte
há muitas explicações complicadas aqui ...
Uma boa maneira de me relacionar é o seguinte:
Role um único dado e você tem a mesma probabilidade de rolar cada número (1-6) e, portanto, o PDF é constante.
Lance dois dados e some os resultados, e o PDF não é mais constante. Isso ocorre porque existem 36 combinações e o intervalo somatório é de 2 a 12. A probabilidade de um 2 é uma combinação singular única de 1 + 1. A probabilidade de um 12 também é única, pois só pode ocorrer em uma única combinação de 6 + 6. Agora, olhando para 7, existem várias combinações, como 3 + 4, 5 + 2 e 6 + 1 ( e suas permutações reversas). À medida que você trabalha fora do valor médio (ou seja, 7), existem combinações menores para 6 e 8 etc. até chegar às combinações singulares de 2 e 12. Este exemplo não resulta em uma distribuição normal clara, mas quanto mais dados você adiciona e, quanto mais amostras você colher, o resultado tenderá a uma distribuição normal.
Portanto, conforme você soma um intervalo de variáveis independentes sujeitas a variação aleatória (cada uma com seu próprio PDF), mais a saída resultante tenderá à normalidade. Isso em termos do Seis Sigma nos dá o que chamamos de 'Voz do Processo'. Isso é o que chamamos de resultado de "variação de causa comum" de um sistema e, portanto, se a saída tende à normalidade, chamamos esse sistema de "controle estatístico do processo". Onde a saída não é normal (inclinada ou deslocada), dizemos que o sistema está sujeito a uma "variação de causa especial", na qual houve algum "sinal" que influenciou o resultado de alguma maneira.
Espero que ajude.
fonte
Nenhuma idéia. Por outro lado, também não faço ideia se é verdade ou o que significa 'tantos'.
No entanto, reorganizando um pouco o problema, há boas razões para supor (ou seja, modelar ) uma quantidade contínua que você acredita ter uma média fixa e uma variação com uma distribuição Normal. Isso ocorre porque a distribuição Normal é o resultado da maximização da entropia sujeita a essas restrições de momento. Uma vez que, grosso modo, a entropia é uma medida de incerteza, que faz do Normal a escolha da forma distributiva mais não comprometida ou maximamente incerta.
Agora, a idéia de que se deva escolher uma distribuição maximizando sua entropia sujeita a restrições conhecidas realmente tem algum apoio da física em termos do número de maneiras possíveis de cumpri-las. Jaynes em mecânica estatística é a referência padrão aqui.
Observe que, embora a entropia máxima motive as distribuições normais nesse caso, diferentes tipos de restrições podem ser mostrados para levar a diferentes famílias distributivas, por exemplo, o exponencial familiar, poisson, binomial etc.
Sivia and Skilling 2005 ch.5 tem uma discussão intuitiva.
fonte