Quadro geral:
Estou tentando entender como o aumento do tamanho da amostra aumenta o poder de um experimento. Os slides do meu professor explicam isso com uma imagem de 2 distribuições normais, uma para a hipótese nula e outra para a hipótese alternativa e um limiar de decisão c entre elas. Eles argumentam que o aumento do tamanho da amostra diminuirá a variação e, assim, causará uma curtose mais alta, reduzindo a área compartilhada sob as curvas e, portanto, a probabilidade de um erro do tipo II.
Imagem pequena:
Não entendo como um tamanho de amostra maior reduzirá a variação.
Suponho que você apenas calcule a variação da amostra e a use como parâmetro em uma distribuição normal.
Eu tentei:
- no Google , mas as respostas mais aceitas têm 0 votos positivos ou são meros exemplos
- pensando : Pela lei dos grandes números, todo valor deve eventualmente se estabilizar em torno de seu provável valor, de acordo com a distribuição normal que assumimos. E a variação deve, portanto, convergir para a variação de nossa distribuição normal assumida. Mas qual é a variação dessa distribuição normal e é um valor mínimo, ou seja, podemos ter certeza de que a variação da amostra diminui para esse valor?
Respostas:
Os desvios padrão das médias são menores que os desvios padrão das observações individuais. [Aqui assumirei observações independentes distribuídas de forma idêntica, com variação finita da população; algo semelhante pode ser dito se você relaxar as duas primeiras condições.]
É uma conseqüência do simples fato de que o desvio padrão da soma de duas variáveis aleatórias é menor que a soma dos desvios padrão (só pode ser igual quando as duas variáveis estão perfeitamente correlacionadas).
De fato, quando você lida com variáveis aleatórias não correlacionadas, podemos dizer algo mais específico: a variação de uma soma de variáveis é a soma de suas variações.
Isso significa que, com variáveis independentes (ou mesmo não correlacionadas) com a mesma distribuição, a variação da média é a variação de um indivíduo dividido pelo tamanho da amostra .n
Correspondentemente, com variáveis independentes (ou mesmo não correlacionadas) com a mesma distribuição, o desvio padrão de sua média é o desvio padrão de um indivíduo dividido pela raiz quadrada do tamanho da amostra:n
Assim, à medida que você adiciona mais dados, você obtém estimativas cada vez mais precisas de médias de grupo. Um efeito semelhante se aplica a problemas de regressão.
Como podemos obter estimativas mais precisas das médias aumentando o tamanho da amostra, somos mais capazes de distinguir os meios próximos - mesmo que as distribuições se sobreponham um pouco, ao obter um tamanho de amostra grande, ainda podemos estimar suas população significa com precisão suficiente para dizer que eles não são os mesmos.
fonte
A variabilidade que está diminuindo quando N aumenta é a variabilidade da média da amostra, geralmente expressa como erro padrão. Ou, em outros termos, a certeza da veracidade da média da amostra está aumentando.
Imagine que você realize um experimento em que coleciona 3 homens e 3 mulheres e mede suas alturas. Você tem certeza de que as alturas médias de cada grupo são a verdadeira média das populações separadas de homens e mulheres? Eu deveria pensar que você não teria muita certeza. Você pode coletar facilmente novas amostras de 3 e encontrar novos meios a vários centímetros das primeiras. Algumas das experiências repetidas como essa podem até resultar em mulheres sendo pronunciadas mais altas que os homens, porque os meios variam muito. Com um N baixo, você não tem muita certeza na média da amostra e isso varia muito entre as amostras.
Agora imagine 10.000 observações em cada grupo. Vai ser muito difícil encontrar novas amostras de 10.000 que tenham meios que diferem muito um do outro. Eles serão muito menos variáveis e você terá mais certeza da precisão deles.
Se você pode aceitar essa linha de pensamento, podemos inseri-la nos cálculos de suas estatísticas como erro padrão. Como você pode ver na equação, é uma estimativa de um parâmetro, (que deve se tornar mais preciso à medida que n aumenta) dividido por um valor que sempre aumenta com n, . Esse erro padrão está representando a variabilidade dos meios ou efeitos em seus cálculos. Quanto menor, mais poderoso é o seu teste estatístico.σ n--√
Aqui está uma pequena simulação em R para demonstrar a relação entre um erro padrão e o desvio padrão das médias de muitas e muitas repetições do experimento inicial. Nesse caso, começaremos com uma média populacional de 100 e desvio padrão de 15.
Observe como o desvio padrão final está próximo do erro padrão teórico. Ao brincar com a variável n aqui, você pode ver que a medida de variabilidade será menor à medida que n aumenta.
[Como um aparte, a curtose nos gráficos não está realmente mudando (supondo que sejam distribuições normais). Diminuir a variação não altera a curtose, mas a distribuição parecerá mais estreita. A única maneira de examinar visualmente as alterações da curtose é colocar as distribuições na mesma escala.]
fonte
Se você quiser saber qual é o peso médio dos cidadãos americanos, no caso ideal, peça imediatamente a cada cidadão que pise na balança e colete os dados. Você obteria uma resposta exata . Isso é muito difícil, então talvez você possa fazer com que alguns cidadãos subam na escala, calculem a média e tenham uma idéia do que é a média da população. Você esperaria que a média da amostra fosse exatamente igual à média da população? Espero que não.
Agora, você concorda que, se você tiver mais e mais pessoas, em algum momento estaremos nos aproximando da média da população? Nós deveríamos, certo? No final, o máximo de pessoas que podemos obter é de toda a população, e sua média é o que estamos procurando. Essa é a intuição.
Este foi um experimento de pensamento idealizado. Na realidade, existem complicações. Vou te dar dois.
fonte
Acredito que a Lei dos Grandes Números explica por que a variação (erro padrão) diminui quando o tamanho da amostra aumenta. O artigo da Wikipedia sobre isso diz:
Em termos do Teorema do Limite Central:
Ao desenhar uma única amostra aleatória, quanto maior a amostra, mais próxima a média da amostra estará da média da população (na citação acima, pense em "número de tentativas" como "tamanho da amostra", de modo que cada "tentativa" seja uma observação ) Portanto, ao desenhar um número infinito de amostras aleatórias, a variação da distribuição amostral será menor, quanto maior o tamanho de cada amostra.
Em outras palavras, a forma da campainha será mais estreita quando cada amostra for grande em vez de pequena, pois dessa forma a média de cada amostra estará mais próxima do centro da campainha.
fonte
À medida que o tamanho da amostra aumenta, a variação da amostra (variação entre as observações) aumenta, mas a variação da média da amostra (erro padrão) diminui e, portanto, a precisão aumenta.
fonte