A fórmula para variação da computação possui no denominador:
Eu sempre me perguntei o porquê. No entanto, ler e assistir a alguns bons vídeos sobre "por que" é, ao que parece, é um bom estimador imparcial da variação da população. Enquanto subestima e superestima a variação populacional.
O que estou curioso para saber é que, na era de nenhum computador, como exatamente essa escolha foi feita? Existe uma prova matemática real comprovando isso ou foram puramente empíricos e estatísticos fizeram MUITOS cálculos à mão para apresentar a "melhor explicação" da época?
Como os estatísticos inventaram essa fórmula no início do século 19 com a ajuda de computadores? Manual ou há mais do que aparenta?
variance
unbiased-estimator
proof
history
Doutorado
fonte
fonte
Respostas:
A correção é chamada correção de Bessel e possui uma prova matemática. Pessoalmente, fui ensinado da maneira mais fácil: usar é como você corrige o viés de (veja aqui ).n−1 E[1n∑n1(xi−x¯)2]
Você também pode explicar a correção com base no conceito de graus de liberdade; a simulação não é estritamente necessária.
fonte
A maioria das provas que eu vi são simples o suficiente para que Gauss (como ele fez isso) provavelmente tenha achado muito fácil provar.
Eu estava procurando por uma derivação no CV à qual eu pudesse vincular você (existem vários links para provas externas, incluindo pelo menos uma nas respostas aqui), mas não encontrei uma aqui no CV em um algumas pesquisas, então, por uma questão de exaustividade, darei uma simples. Dada a sua simplicidade, é fácil ver como as pessoas começariam a usar o que geralmente é chamado de correção de Bessel .
Isso leva como conhecimento assumido e assume que as primeiras propriedades básicas de variação são conhecidas.E(X2)=Var(X)+E(X)2
fonte
De acordo com o World of Mathematics de Weisstein, foi provado pela primeira vez por Gauss em 1823. A referência é o volume 4 do Gauss 'Werke, que pode ser lido em https://archive.org/details/werkecarlf04gausrich . As páginas relevantes parecem ter 47-49. Parece que Gauss investigou a questão e apresentou uma prova. Não leio latim, mas há um resumo em alemão no texto. As páginas 103-104 explicam o que ele fez (Edit: adicionei uma tradução aproximada):
a partir do qual parece ser sabido que a variação da amostra é uma estimativa tendenciosa da variação da população. O artigo continua dizendo que a diferença entre os dois é geralmente ignorada porque não é importante se o tamanho da amostra for grande o suficiente. Então diz:
Portanto, se esta é realmente a primeira vez que a correção foi encontrada, parece que ela foi encontrada por um cálculo inteligente de Gauss, mas as pessoas já estavam cientes de que alguma correção era necessária, então talvez alguém pudesse encontrá-la empiricamente antes disso. . Ou, possivelmente, autores anteriores não se importaram em obter a resposta exata, porque eles estavam trabalhando com conjuntos de dados razoavelmente grandes.
Resumo: manual, mas as pessoas já sabiam que no denominador não estava certo.n
fonte
Para mim, uma intuição é que
Isso é,
Na verdade, provar a equação acima requer um pouco de álgebra (essa álgebra é muito semelhante à resposta de @ Glen_b acima). Mas, supondo que seja verdade, podemos reorganizar para obter:
Para mim, outra parte da intuição é que o uso de vez de introduz viés. E esse viés é exatamente igual a .X¯ μ E[(X¯−μ)2]=σ2n
fonte
A maioria das respostas já o explicou de forma elaborada, mas além dessas, há uma ilustração simples que pode ser útil:
Suponha que você saiba que e os três primeiros números são:n=4
Agora, o quarto número pode ser qualquer coisa, pois não há restrições. Agora considere a situação em que você recebe que e , se os três primeiros números forem: , o quarto número deverá ser .ˉ x = 6 8 , 4 , 6 6n=4 x¯=6 8,4,6 6
Isso significa que, se você conhece valores e , o valor não tem liberdade. Assim, nos fornece um estimador imparcial.ˉ x n t h n - 1n−1 x¯ nth n−1
fonte