Na minha classe de cálculo, encontramos a função , ou a "curva de sino", e me disseram que ela tem aplicações frequentes em estatística.
Por curiosidade, quero perguntar: a função realmente importante em estatística? Nesse caso, o que é que o torna útil e quais são algumas de suas aplicações?
Não consegui encontrar muita informação sobre a função na internet, mas depois de fazer algumas pesquisas, encontrei um link entre as curvas de sino em geral e algo chamado distribuição normal . Uma página da Wikipedia vincula esses tipos de funções ao aplicativo de estatísticas, com destaque para mim, que afirma:
"A distribuição normal é considerada a distribuição de probabilidade mais proeminente nas estatísticas. Existem várias razões para isso: 1 Primeiro, a distribuição normal surge do teorema do limite central, que afirma que, em condições amenas, a soma de um grande número de variáveis aleatórias desenhadas da mesma distribuição é distribuído aproximadamente normalmente, independentemente da forma da distribuição original . "
Portanto, se eu reunir uma grande quantidade de dados de algum tipo de pesquisa ou algo semelhante, eles poderão ser distribuídos igualmente entre uma função como ? A função é simétrica, assim como sua simetria, ou seja, sua utilidade para a distribuição normal, o que a torna tão útil nas estatísticas? Estou apenas especulando.
Em geral, o que torna útil em estatística? Se a distribuição normal é a única área, o que torna único ou especificamente útil entre outras funções do tipo gaussiano na distribuição normal?
fonte
Respostas:
A razão pela qual essa função é importante é realmente a distribuição normal e seu companheiro estreitamente vinculado, o teorema do limite central (temos algumas boas explicações sobre o CLT em outras questões aqui).
Nas estatísticas, o CLT geralmente pode ser usado para calcular as probabilidades aproximadamente, tornando possíveis declarações como "estamos 95% confiantes de que ..." (o significado de "95% confiante" é geralmente mal compreendido, mas isso é uma questão diferente).
A função é (uma versão em escala da) a função de densidade da distribuição normal. Se uma quantidade aleatória pode ser modelada usando a distribuição normal, esta função descreve a probabilidade de diferentes valores possíveis dessa quantidade. Resultados em regiões com alta densidade são mais prováveis do que resultados em regiões com baixa densidade.exp( - ( x - μ )22 σ2)
σ μ μ σ x = μ x μ σμ e são parâmetros que determinam a localização e a escala da função de densidade. É simétrico em relação a , portanto, alterar significa que você muda a função para a direita ou para a esquerda. determina o valor da função de densidade no máximo ( ) e a rapidez com que ele chega a 0 quando se afasta de . Nesse sentido, mudar altera a escala da função.σ μ μ σ x = μ x μ σ
Para a opção particular e a densidade é (proporcional a) . Essa não é uma escolha particularmente interessante desses parâmetros, mas tem o benefício de produzir uma função de densidade que parece um pouco mais simples que todas as outras.σ = 1 / √μ = 0 e - x 2σ= 1 / 2-√ e- x2
Por outro lado, podemos ir de para qualquer outra densidade normal pela mudança de variáveis . A razão pela qual seu livro diz que , e não exp ( - ( x - μ ) 2 x = u - μe- x2 e-x2x = u - μ2√σ e- x2 , é uma função muito importante é quee-x2é mais simples de escrever.exp( - ( x - μ )22 σ2) e- x2
fonte
E a distribuição normal é importante principalmente porque ("sob condições moderadas de regularidade") a soma de muitas variáveis aleatórias independentes e identicamente distribuídas se aproxima do normal, quando "muitos" se aproximam do infinito.
Nem tudo é normalmente distribuído. Por exemplo, os resultados da sua pesquisa podem não ser, pelo menos se as respostas não estiverem na escala contínua, mas forem algo como números inteiros 1 a 5. Mas a média dos resultados é normalmente distribuída por amostragem repetida, porque a média é apenas uma soma escalada (normalizada) e as respostas individuais são independentes uma da outra. Supondo que a amostra seja grande o suficiente, é claro, porque estritamente falando, a normalidade aparece apenas quando o tamanho da amostra se torna infinito.
Como você vê no exemplo, a distribuição normal pode aparecer como resultado do processo de estimativa ou modelagem, mesmo quando os dados não são normalmente distribuídos. Portanto, distribuições normais estão em toda parte nas estatísticas. Nas estatísticas bayesianas, muitas distribuições posteriores de parâmetros são aproximadamente normais ou podem ser consideradas.
fonte
fonte