Por que a variação de uma amostra muda se as observações são duplicadas?
25
Diz-se que a variação é uma medida do spread. Então, eu pensei que a variação de 3,5é igual à variação de, 3,3,5,5uma vez que os números são igualmente distribuídos. Mas este não é o caso, a variação de 3,5é 2enquanto a variação de 3,3,5,5é 1 1/3.
Isso me intriga, dada a explicação de que a variação deve ser uma medida de propagação.
Então, nesse contexto, o que significa medida de spread ?
Se você definir a variação como - semelhante à variação da população mas com a média da amostra para \ mu , as duas amostras terão a mesma variação.s2n=MSE= 1n∑ni = 1( xEu- x¯)2μ
Portanto, a diferença se deve exclusivamente à correção de Bessel na fórmula usual para a variação da amostra ( , que ajusta o fato de que a média da amostra está mais próxima dos dados do que a média da população, a fim de torná-la imparcial (assumindo o valor correto "em média").s2n - 1= nn - 1⋅ MSE = nn - 1⋅ 1n∑ni = 1( xEu- x¯)2= 1n - 1∑ni = 1( xEu- x¯)2
O efeito desaparece gradualmente com o aumento do tamanho da amostra, pois n - 1n vai para 1 como n → ∞ .
Não há nenhuma razão específica para você usar o estimador imparcial para s2n , a propósito - s ^ 2_n é um estimador perfeitamente válido e, em alguns casos, pode ter vantagens sobre a forma mais comum (a imparcialidade não é necessariamente tão grande assim). lidar).
A variação em si não é diretamente uma medida de spread. Se eu dobrar todos os valores no meu conjunto de dados, afirmo que eles são duas vezes mais "dispersos". Mas a variação aumenta em um fator de 4. Portanto, mais geralmente, diz-se que o desvio padrão, em vez da variação, é uma medida de spread.
Obviamente, o mesmo problema ocorre com o desvio padrão (a versão sn - 1 usual ) e com a variação - quando você duplica os pontos, o desvio padrão muda, pelo mesmo motivo que ocorre com a variação.
Em amostras pequenas, a correção de Bessel torna o desvio padrão um pouco menos intuitivo como medida de propagação por causa desse efeito (que duplicar a amostra altera o valor). Mas muitas medidas de propagação mantêm o mesmo valor ao duplicar a amostra; Vou mencionar alguns -
sn (é claro)
o desvio médio (absoluto) da média
o desvio mediano (absoluto) da mediana
o intervalo interquartil (pelo menos para algumas definições de quartis de amostra)
"Não existe uma razão específica para você usar o estimador imparcial" - na verdade você não deve necessariamente estimar nada. A variação em {3, 5}si é 1, pela primeira fórmula. Como você ressalta, o questionador tentou estimar a variação de uma população da qual se presume ser uma amostra, mas quem sabe se é ou não.
Steve Jessop
1
Como algum tipo de acelerador, . Portanto, o valor esperado da variação de uma amostra é muito baixo, com a diferença sendo a variação da média da amostra.VX= EVX+ VEX
A fórmula usual de variação da amostra compensa isso, e a variação da média da amostra varia inversamente com o tamanho da amostra.
Como um exemplo extremo, a coleta de uma única amostra sempre mostrará uma variação de amostra de 0, obviamente não indicando uma variação de 0 para a distribuição subjacente.
Agora, para 2 e 4 amostras com peso uniforme, os fatores corretivos são e , respectivamente. Portanto, suas variações esperadas calculadas diferem por um fator de . A variação da própria amostra é em ambos os casos. Mas o primeiro caso apresenta um caso mais fraco para sendo a média da distribuição base, e qualquer outro valor significaria uma variação maior.2 / 14 / 32 / 314
Ao confundir os estimadores com as estatísticas , essa resposta confunde, e não esclarece, a questão. Por favor, leia a resposta original de Glen_b neste tópico. O argumento nos dois primeiros parágrafos é misterioso porque parece irrelevante para a questão.
{3, 5}
si é 1, pela primeira fórmula. Como você ressalta, o questionador tentou estimar a variação de uma população da qual se presume ser uma amostra, mas quem sabe se é ou não.Como algum tipo de acelerador, . Portanto, o valor esperado da variação de uma amostra é muito baixo, com a diferença sendo a variação da média da amostra.VX= EVX+ VEX
A fórmula usual de variação da amostra compensa isso, e a variação da média da amostra varia inversamente com o tamanho da amostra.
Como um exemplo extremo, a coleta de uma única amostra sempre mostrará uma variação de amostra de 0, obviamente não indicando uma variação de 0 para a distribuição subjacente.
Agora, para 2 e 4 amostras com peso uniforme, os fatores corretivos são e , respectivamente. Portanto, suas variações esperadas calculadas diferem por um fator de . A variação da própria amostra é em ambos os casos. Mas o primeiro caso apresenta um caso mais fraco para sendo a média da distribuição base, e qualquer outro valor significaria uma variação maior.2 / 1 4 / 3 2 / 3 1 4
fonte