Por que aumentar o tamanho da amostra diminui a variação (amostragem)?

35

Quadro geral:

Estou tentando entender como o aumento do tamanho da amostra aumenta o poder de um experimento. Os slides do meu professor explicam isso com uma imagem de 2 distribuições normais, uma para a hipótese nula e outra para a hipótese alternativa e um limiar de decisão c entre elas. Eles argumentam que o aumento do tamanho da amostra diminuirá a variação e, assim, causará uma curtose mais alta, reduzindo a área compartilhada sob as curvas e, portanto, a probabilidade de um erro do tipo II.

Imagem pequena:

Não entendo como um tamanho de amostra maior reduzirá a variação.
Suponho que você apenas calcule a variação da amostra e a use como parâmetro em uma distribuição normal.

Eu tentei:

  • no Google , mas as respostas mais aceitas têm 0 votos positivos ou são meros exemplos
  • pensando : Pela lei dos grandes números, todo valor deve eventualmente se estabilizar em torno de seu provável valor, de acordo com a distribuição normal que assumimos. E a variação deve, portanto, convergir para a variação de nossa distribuição normal assumida. Mas qual é a variação dessa distribuição normal e é um valor mínimo, ou seja, podemos ter certeza de que a variação da amostra diminui para esse valor?
user2740
fonte
Seu experimento mental dizia respeito a dados normalmente distribuídos, mas também se aplica a dados extraídos de muitas outras distribuições (como observado por @Aksakal, não todos! O Cauchy é um exemplo comumente citado de um comportamento tão ruim). Para dados binomiais, há uma boa discussão sobre como a potência e o erro padrão variam com o tamanho da amostra em stats.stackexchange.com/q/87730/22228
Silverfish
11
Como você é novo no CrossValidated, permita-me salientar que, se você recebeu uma resposta satisfatória, considere marcá-la como "aceita" clicando em uma marca verde à esquerda dela. Isso fornece reputação adicional ao respondente e também marca a pergunta como resolvida.
Ameba diz Reinstate Monica
Eu penso assim: cada novo ponto tem informações únicas. Pontos infinitos têm o suficiente para fazer uma estimativa perfeita. À medida que adicionamos mais e mais novos pontos de amostra, a diferença entre as informações de que precisamos para ter uma estimativa perfeita e as informações que realmente temos fica cada vez menor.
EngrStudent - Restabelece Monica
Essa é a fonte da confusão: não é a variação da amostra que diminui, mas a variação da variação da amostra. A variação da amostra é um estimador (portanto, uma variável aleatória). Se seus dados vierem de um N normal (0, 5), a variação da amostra será próxima de 5. Qual é a distância? Depende da variação do seu estimador para a variação da amostra. Com 100 pontos de dados, você pode encontrar algo como 4,92. Com 1000, você encontrará algo como 4,98. Com 10000, você encontrará 5.0001. Assim, aumenta a precisão de suas medições, não as medições em si.
Ant

Respostas:

32

Os desvios padrão das médias são menores que os desvios padrão das observações individuais. [Aqui assumirei observações independentes distribuídas de forma idêntica, com variação finita da população; algo semelhante pode ser dito se você relaxar as duas primeiras condições.]

É uma conseqüência do simples fato de que o desvio padrão da soma de duas variáveis ​​aleatórias é menor que a soma dos desvios padrão (só pode ser igual quando as duas variáveis ​​estão perfeitamente correlacionadas).

De fato, quando você lida com variáveis ​​aleatórias não correlacionadas, podemos dizer algo mais específico: a variação de uma soma de variáveis ​​é a soma de suas variações.

Isso significa que, com variáveis ​​independentes (ou mesmo não correlacionadas) com a mesma distribuição, a variação da média é a variação de um indivíduo dividido pelo tamanho da amostra .n

Correspondentemente, com variáveis ​​independentes (ou mesmo não correlacionadas) com a mesma distribuição, o desvio padrão de sua média é o desvio padrão de um indivíduo dividido pela raiz quadrada do tamanho da amostra:n

σX¯=σ/n .

Assim, à medida que você adiciona mais dados, você obtém estimativas cada vez mais precisas de médias de grupo. Um efeito semelhante se aplica a problemas de regressão.

Como podemos obter estimativas mais precisas das médias aumentando o tamanho da amostra, somos mais capazes de distinguir os meios próximos - mesmo que as distribuições se sobreponham um pouco, ao obter um tamanho de amostra grande, ainda podemos estimar suas população significa com precisão suficiente para dizer que eles não são os mesmos.

Glen_b -Reinstate Monica
fonte
8

A variabilidade que está diminuindo quando N aumenta é a variabilidade da média da amostra, geralmente expressa como erro padrão. Ou, em outros termos, a certeza da veracidade da média da amostra está aumentando.

Imagine que você realize um experimento em que coleciona 3 homens e 3 mulheres e mede suas alturas. Você tem certeza de que as alturas médias de cada grupo são a verdadeira média das populações separadas de homens e mulheres? Eu deveria pensar que você não teria muita certeza. Você pode coletar facilmente novas amostras de 3 e encontrar novos meios a vários centímetros das primeiras. Algumas das experiências repetidas como essa podem até resultar em mulheres sendo pronunciadas mais altas que os homens, porque os meios variam muito. Com um N baixo, você não tem muita certeza na média da amostra e isso varia muito entre as amostras.

Agora imagine 10.000 observações em cada grupo. Vai ser muito difícil encontrar novas amostras de 10.000 que tenham meios que diferem muito um do outro. Eles serão muito menos variáveis ​​e você terá mais certeza da precisão deles.

Se você pode aceitar essa linha de pensamento, podemos inseri-la nos cálculos de suas estatísticas como erro padrão. Como você pode ver na equação, é uma estimativa de um parâmetro, (que deve se tornar mais preciso à medida que n aumenta) dividido por um valor que sempre aumenta com n, . Esse erro padrão está representando a variabilidade dos meios ou efeitos em seus cálculos. Quanto menor, mais poderoso é o seu teste estatístico.σn

Aqui está uma pequena simulação em R para demonstrar a relação entre um erro padrão e o desvio padrão das médias de muitas e muitas repetições do experimento inicial. Nesse caso, começaremos com uma média populacional de 100 e desvio padrão de 15.

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

Observe como o desvio padrão final está próximo do erro padrão teórico. Ao brincar com a variável n aqui, você pode ver que a medida de variabilidade será menor à medida que n aumenta.

[Como um aparte, a curtose nos gráficos não está realmente mudando (supondo que sejam distribuições normais). Diminuir a variação não altera a curtose, mas a distribuição parecerá mais estreita. A única maneira de examinar visualmente as alterações da curtose é colocar as distribuições na mesma escala.]

John
fonte
você estava certo, mais pensamentos devem estar envolvidos da minha parte no futuro: P
j__ 21/12/14
Duas coisas não estão totalmente claras: (1) As curvas de sino que o OP fala sobre a distribuição da amostra significa? (2) Os tamanhos das amostras são considerados tanto para a distribuição da média das amostras do grupo controle quanto para a distribuição da média das amostras do grupo experimental?
Lenar Hoyt
4

Se você quiser saber qual é o peso médio dos cidadãos americanos, no caso ideal, peça imediatamente a cada cidadão que pise na balança e colete os dados. Você obteria uma resposta exata . Isso é muito difícil, então talvez você possa fazer com que alguns cidadãos subam na escala, calculem a média e tenham uma idéia do que é a média da população. Você esperaria que a média da amostra fosse exatamente igual à média da população? Espero que não.

Agora, você concorda que, se você tiver mais e mais pessoas, em algum momento estaremos nos aproximando da média da população? Nós deveríamos, certo? No final, o máximo de pessoas que podemos obter é de toda a população, e sua média é o que estamos procurando. Essa é a intuição.

Este foi um experimento de pensamento idealizado. Na realidade, existem complicações. Vou te dar dois.

  • Imagine que os dados são provenientes de uma distribuição Cauchy . Você pode aumentar sua amostra infinitamente, mas a variação não diminuirá. Essa distribuição não possui variação populacional. De fato, estritamente falando, também não tem média amostral. É triste. Surpreendentemente, essa distribuição é bastante real, aparece aqui e ali na física.
  • Imagine que você decidiu continuar com a tarefa de determinar o peso médio dos cidadãos americanos. Então, você pega sua balança e vai de casa em casa. Isso levará muitos anos. Quando você coleta milhões de observações, alguns dos cidadãos do seu conjunto de dados já mudaram muito de peso, alguns morreram etc. O ponto é que o aumento do tamanho da amostra nesse caso não ajuda.
Aksakal
fonte
11
Eu suspeito que você quis dizer "peso médio" em sua primeira frase. Eu gosto do uso de um experimento mental. Outra complicação pode vir da sua ferramenta de medição - ou seja, as escalas que se desgastam, podem ter erro de paralaxe ou erro do usuário que introduz outra variabilidade.
MarkR
1

Acredito que a Lei dos Grandes Números explica por que a variação (erro padrão) diminui quando o tamanho da amostra aumenta. O artigo da Wikipedia sobre isso diz:

De acordo com a lei, a média dos resultados obtidos em um grande número de tentativas deve estar próxima do valor esperado e tenderá a se aproximar à medida que mais tentativas forem realizadas.

Em termos do Teorema do Limite Central:

Ao desenhar uma única amostra aleatória, quanto maior a amostra, mais próxima a média da amostra estará da média da população (na citação acima, pense em "número de tentativas" como "tamanho da amostra", de modo que cada "tentativa" seja uma observação ) Portanto, ao desenhar um número infinito de amostras aleatórias, a variação da distribuição amostral será menor, quanto maior o tamanho de cada amostra.

Em outras palavras, a forma da campainha será mais estreita quando cada amostra for grande em vez de pequena, pois dessa forma a média de cada amostra estará mais próxima do centro da campainha.

Jose Vila
fonte
0

À medida que o tamanho da amostra aumenta, a variação da amostra (variação entre as observações) aumenta, mas a variação da média da amostra (erro padrão) diminui e, portanto, a precisão aumenta.

Dr. Vikas Doshi
fonte