Como o erro padrão funciona?

17

Eu estive examinando o funcionamento interno do erro padrão recentemente e me vi incapaz de entender como ele funciona. Meu entendimento do erro padrão é que é o desvio padrão da distribuição das médias amostrais. Minhas perguntas são:

• como sabemos que o erro padrão é o desvio padrão da amostra quando geralmente coletamos apenas uma amostra?

• por que a equação para calcular o erro padrão reflete a equação do desvio padrão para uma única amostra?

luciano
fonte
Quando você diz "amostra única", você quer dizer um conjunto de amostras ou realmente um tamanho de amostra igual a 1?
Erik
1
Isso é explicado por um problema simples, mas interessante (uma resposta ternária) em linguagem simples e não estatística em stats.stackexchange.com/a/18609 .
whuber

Respostas:

13

Sim, o erro padrão da média (MEV) é o desvio padrão (DP) das médias. (O erro padrão é outra maneira de dizer DP de uma distribuição amostral. Nesse caso, a distribuição amostral é um meio para amostras de tamanho fixo, digamos N.). Existe uma relação matemática entre o SEM e a população SD: SEM = população DP / raiz quadrada de N. Essa relação matemática é muito útil, pois quase nunca temos uma estimativa direta do MEV, mas temos uma estimativa da população SD (a saber, o SD da nossa amostra). Quanto à sua segunda pergunta, se você coletar várias amostras de tamanho N e calcular a média de cada amostra, poderá estimar o MEV simplesmente calculando o DP das médias. Portanto, a fórmula do SEM realmente reflete a fórmula do SD de uma única amostra.

Joel W.
fonte
13

Suponha que sejam independentes e distribuídos de forma idêntica. Esta é a situação à qual tenho certeza de que você está se referindo. Seja sua média comum μ e sua variância comum seja .X1,X2,,Xnμσ2

Agora a média da amostra é . A linearidade da expectativa mostra que a média de também é . A suposição de independência implica que a variação de é a soma das variações de seus termos. Cada um desses termos tem variação (porque a variação de uma constante vezes uma variável aleatória é a constante ao quadrado vezes a variação da variável aleatória). Nós distribuímos identicamente essas variáveis ​​para somar, portanto, cada termo tem a mesma variação. Como resultado, obtemos para a variação da média da amostra.X b μ X b X i / n σ 2 / n 2 n n σ 2 / N 2 = σ 2 / nXb=iXi/nXbμXbXi/nσ2/n2nnσ2/n2=σ2/n

Normalmente, não sabemos e, portanto, devemos calculá-lo a partir dos dados. Dependendo da configuração, existem várias maneiras de fazer isso. As duas estimativas de propósito geral mais comuns de são a variação da amostra e um pequeno múltiplo, (que é um estimador imparcial de ). Usar qualquer um deles no lugar de no parágrafo anterior e pegar a raiz quadrada gera o erro padrão na forma de ou .σ 2 s 2 = 1σ2σ2 s 2 u =ns2=1ni(XiXb)2su2=nn1s2σ2σ2s/nsu/n

Michael R. Chernick
fonte
1
Isso é muito bom. Você tem sugestões de livros ou leituras para desenvolver uma linha de pensamento semelhante. Obrigado.
Q126y
Resposta elegante!
Jinhua Wang
7

+1 para ambos @JoelW. & @MichaelChernick. Quero adicionar um detalhe à resposta de @ JoelW. Ele observa que "quase nunca temos uma estimativa direta do MEV", o que é essencialmente verdadeiro, mas vale a pena reconhecer explicitamente uma ressalva a essa afirmação. Especificamente, quando um estudo compara vários grupos / tratamentos (por exemplo, placebo versus medicamento padrão versus medicamento novo), uma ANOVA é normalmente usada para verificar se todos são iguais. A hipótese nula é que cada grupo foi desenhado da mesma população e, portanto, todas as três médias são estimativas da média da população. Ou seja, a hipótese nula em uma ANOVA padrão pressupõe que você tenha uma estimativa direta do SEM. Considere a equação para a variância da distribuição amostral de médias: ondeσ 2 p o p é a variação da população enjé o número de grupos. Embora nós não costumamos realizar os cálculos, desta forma, quepoderiasimplesmente usar fórmulas padrão para ligar valores estimados, e com o mínimo de reorganização algébrica, formam aestatística assim: Nesse caso, estaríamos realmente usando a fórmula padrão (aplicada apenas sobre o grupo significa), ou seja: com

σx¯2=σpop2nj,
σpop2njF
F=nj×sx¯2spooled within group2
sx¯2=j=1nj(x¯jx¯.)2nj1,
x. sendo a média do grupo significa.

Na medida em que acreditamos que a hipótese nula não é verdadeira, o argumento de @ JoelW. está correto, mas eu trabalho com esse ponto, porque acho que a clareza que ela oferece é útil para entender essas questões.

- Reinstate Monica
fonte
2
Eu acho que seu comentário é basicamente o mesmo que este, que foi escrito com menos notações matemáticas: stats.stackexchange.com/questions/32206/…
Joel W.