Por que a variação de uma amostra muda se as observações são duplicadas?

25

Diz-se que a variação é uma medida do spread. Então, eu pensei que a variação de 3,5é igual à variação de, 3,3,5,5uma vez que os números são igualmente distribuídos. Mas este não é o caso, a variação de 3,5é 2enquanto a variação de 3,3,5,5é 1 1/3.

Isso me intriga, dada a explicação de que a variação deve ser uma medida de propagação.

Então, nesse contexto, o que significa medida de spread ?

René Nyffenegger
fonte

Respostas:

32

Se você definir a variação como - semelhante à variação da população mas com a média da amostra para \ mu , as duas amostras terão a mesma variação.sn2=MSE=1nEu=1n(xEu-x¯)2μ

Portanto, a diferença se deve exclusivamente à correção de Bessel na fórmula usual para a variação da amostra ( , que ajusta o fato de que a média da amostra está mais próxima dos dados do que a média da população, a fim de torná-la imparcial (assumindo o valor correto "em média").sn-12=nn-1MSE=nn-11nEu=1n(xEu-x¯)2=1n-1Eu=1n(xEu-x¯)2

O efeito desaparece gradualmente com o aumento do tamanho da amostra, pois n-1n vai para 1 como n .

Não há nenhuma razão específica para você usar o estimador imparcial para sn2 , a propósito - s ^ 2_n é um estimador perfeitamente válido e, em alguns casos, pode ter vantagens sobre a forma mais comum (a imparcialidade não é necessariamente tão grande assim). lidar).

A variação em si não é diretamente uma medida de spread. Se eu dobrar todos os valores no meu conjunto de dados, afirmo que eles são duas vezes mais "dispersos". Mas a variação aumenta em um fator de 4. Portanto, mais geralmente, diz-se que o desvio padrão, em vez da variação, é uma medida de spread.

Obviamente, o mesmo problema ocorre com o desvio padrão (a versão sn-1 usual ) e com a variação - quando você duplica os pontos, o desvio padrão muda, pelo mesmo motivo que ocorre com a variação.

Em amostras pequenas, a correção de Bessel torna o desvio padrão um pouco menos intuitivo como medida de propagação por causa desse efeito (que duplicar a amostra altera o valor). Mas muitas medidas de propagação mantêm o mesmo valor ao duplicar a amostra; Vou mencionar alguns -

  • sn (é claro)

  • o desvio médio (absoluto) da média

  • o desvio mediano (absoluto) da mediana

  • o intervalo interquartil (pelo menos para algumas definições de quartis de amostra)

Glen_b -Reinstate Monica
fonte
3
"Não existe uma razão específica para você usar o estimador imparcial" - na verdade você não deve necessariamente estimar nada. A variação em {3, 5}si é 1, pela primeira fórmula. Como você ressalta, o questionador tentou estimar a variação de uma população da qual se presume ser uma amostra, mas quem sabe se é ou não.
Steve Jessop
1

Como algum tipo de acelerador, . Portanto, o valor esperado da variação de uma amostra é muito baixo, com a diferença sendo a variação da média da amostra.VX=EVX+VEX

A fórmula usual de variação da amostra compensa isso, e a variação da média da amostra varia inversamente com o tamanho da amostra.

Como um exemplo extremo, a coleta de uma única amostra sempre mostrará uma variação de amostra de 0, obviamente não indicando uma variação de 0 para a distribuição subjacente.

Agora, para 2 e 4 amostras com peso uniforme, os fatores corretivos são e , respectivamente. Portanto, suas variações esperadas calculadas diferem por um fator de . A variação da própria amostra é em ambos os casos. Mas o primeiro caso apresenta um caso mais fraco para sendo a média da distribuição base, e qualquer outro valor significaria uma variação maior.2/14/32/314

user80227
fonte
2
Ao confundir os estimadores com as estatísticas , essa resposta confunde, e não esclarece, a questão. Por favor, leia a resposta original de Glen_b neste tópico. O argumento nos dois primeiros parágrafos é misterioso porque parece irrelevante para a questão.
whuber