Não entendi o porquê N
e N-1
ao calcular a variação da população. Quando usamos N
e quando usamos N-1
?
Clique aqui para uma versão maior
Diz que quando a população é muito grande, não há diferença entre N e N-1, mas não diz por que existe N-1 no início.
Edit: Por favor, não confunda com n
e n-1
que são usados na estimativa.
Edit2: Eu não estou falando sobre estimativa de população.
variance
population
ilhan
fonte
fonte
Respostas:
n ( N - 1 ) / N = 1 - ( 1 / N ) 1 - 2 / N 1 - 17 / N exp ( - 1 / N )N é o tamanho da população e é o tamanho da amostra. A questão pergunta por que a variação populacional é o desvio médio quadrático da média, em vez de vezes. Por falar nisso, por que parar por aí? Por que não multiplicar o desvio médio quadrático por ou ou , por exemplo?n (N−1)/N=1−(1/N) 1−2/N 1−17/N exp(−1/N)
Na verdade, há uma boa razão para não fazê-lo. Qualquer uma dessas figuras que acabei de mencionar serviria como uma maneira de quantificar uma "propagação típica" dentro da população. No entanto, sem o conhecimento prévio do tamanho da população, seria impossível usar uma amostra aleatória para encontrar um estimador imparcial de tal figura. Sabemos que a variação da amostra , que multiplica o desvio médio quadrático da média da amostra por , é um estimador imparcial da variação usual da população ao amostrar com substituição. (Não há problema em fazer essa correção, porque sabemos que !). A variação da amostra seria, portanto, um estimador tendencioso de qualquer múltiplo da variação da população em que esse múltiplo, comon 1 - 1 / N(n−1)/n n 1−1/N , não é exatamente conhecido de antemão.
Esse problema de uma quantidade desconhecida de viés se propagaria a todos os testes estatísticos que usam a variação da amostra, incluindo testes t e testes F. De fato, dividir por qualquer coisa diferente de na fórmula de variação populacional exigiria a alteração de todas as tabulações estatísticas das estatísticas t e estatística F (e muitas outras tabelas também), mas o ajuste dependeria do tamanho da população. Ninguém quer ter que fazer mesas para todos os possíveis ! Especialmente quando não é necessário.NN N
Como uma questão prática, quando é pequeno o suficiente que o uso de em vez de em fórmulas faz a diferença, você costuma fazer conhecer o tamanho da população (ou pode adivinhar com precisão) e você provavelmente iria recorrer a muito mais substancial pequeno-população correções ao trabalhar com amostras aleatórias (sem substituição) da população. Em todos os outros casos, quem se importa? A diferença não importa. Por esses motivos, guiados por considerações pedagógicas (ou seja, focar em detalhes importantes e encobrir detalhes que não importam), alguns excelentes textos introdutórios de estatísticas nem se importam em ensinar a diferença: eles simplesmente fornecem uma fórmula de variação única ( dividido porN - 1 N N nN N−1 N N ou conforme o caso).n
fonte
Em vez de entrar em matemática, tentarei colocá-lo em palavras simples. Se você tem toda a população à sua disposição, sua variação ( variação da população ) é calculada com o denominador
N
. Da mesma forma, se você tiver apenas amostra e quiser calcular a variação dessa amostra , use o denominadorN
(n da amostra, neste caso). Nos dois casos, observe que você não estima nada: a média que você mediu é a média verdadeira e a variação que você calculou dessa média é a variação verdadeira.Agora, você tem apenas uma amostra e deseja inferir sobre a média e variação desconhecidas na população. Em outras palavras, você deseja estimativas . Você leva sua média amostral para a estimativa da média populacional (porque sua amostra é representativa), OK. Para obter uma estimativa da variação populacional, você deve fingir que essa média é realmente média populacional e, portanto, não depende mais da sua amostra desde quando a calculou. Para "mostrar" que agora você toma como fixo, você reserva uma (qualquer) observação da sua amostra para "apoiar" o valor da média: seja o que for que sua amostra possa ter acontecido, uma observação reservada sempre pode levar a média ao valor que você deseja " obtivemos e que acreditamos ser insensível a contingências amostrais. Uma observação reservada é "-1"
N-1
na estimativa de variância computacional.Imagine que você saiba de alguma forma a verdadeira média da população, mas deseja estimar a variação da amostra. Em seguida, você substituirá a média verdadeira na fórmula para variação e aplicará o denominador
N
: nenhum "-1" é necessário aqui, pois você conhece a média verdadeira e não a estimou nesta mesma amostra.fonte
N
o N e o n.N
é o tamanho de uma totalidade disponível, população ou amostra. Para calcular a variação populacional , você deve ter população à sua disposição. Se você tiver apenas uma amostra, poderá calcular a variação dessa amostra ou a variação da estimativa populacional . Não há outro caminho.Geralmente, quando se tem apenas uma fração da população, ou seja, uma amostra, você deve dividir por n-1. Há uma boa razão para fazê-lo, sabemos que a variação da amostra, que multiplica o desvio médio quadrático da média da amostra por (n-1) / n, é um estimador imparcial da variação da população.
Você pode encontrar uma prova de que o estimador da variação da amostra é imparcial aqui: https://economictheoryblog.com/2012/06/28/latexlatexs2/
Além disso, se alguém aplicasse o estimador da variação populacional, que é a versão do estimador de variação que divide por n, em uma amostra em vez da população, a estimativa obtida seria enviesada.
fonte
No passado, houve um argumento de que você deveria usar N para uma variação não inferencial, mas eu não recomendo mais isso. Você sempre deve usar N-1. À medida que o tamanho da amostra diminui, N-1 é uma correção muito boa, pois a variação da amostra diminui (é mais provável que você faça amostragens próximas ao pico da distribuição - veja a figura). Se o tamanho da amostra for realmente grande, não importa nenhuma quantidade significativa.
Uma explicação alternativa é que a população é uma construção teórica impossível de alcançar. Portanto, sempre use N-1, porque o que você estiver fazendo, na melhor das hipóteses, estimar a variação da população.
Além disso, você verá o N-1 para estimativas de variância daqui em diante. Você provavelmente nunca encontrará esse problema ... exceto em um teste em que seu professor poderá solicitar que você faça uma distinção entre uma inferencial e outra. medida de variância não inferencial. Nesse caso, não use a resposta do whuber ou a minha, consulte a resposta do ttnphns.
Observe que, nesta figura, a variação deve ser próxima de 1. Observe o quanto isso varia com o tamanho da amostra quando você usa N para estimar a variação. (esse é o "viés" referido em outro lugar)
fonte
A variação populacional é a soma dos desvios quadrados de todos os valores da população divididos pelo número de valores na população. Porém, quando estimamos a variação de uma população de uma amostra, encontramos o problema de que os desvios dos valores da amostra em relação à média da amostra são, em média, um pouco menores que os desvios desses valores da amostra em relação a ( desconhecido) média populacional verdadeira. Isso resulta em uma variação calculada a partir da amostra um pouco menor que a variação real da população. O uso de um divisor n-1 em vez de n corrige essa subestimação.
fonte