Em um teste t de uma amostra, o que acontece se no estimador de variância a média da amostra for substituída por

10

Suponha um teste t de uma amostra, em que a hipótese nula é . A estatística é então usando o desvio padrão da amostra . Na estimativa de s , compara-se as observações com a média da amostra ¯ x :μ=μ0 0 st=x¯-μ0 0s/nssx¯

.s=1n1i=1n(xix¯)2

No entanto, se assumirmos que um dado é verdadeiro, também é possível estimar o desvio padrão s usando µ 0 em vez da média da amostra ¯ x :μ0sμ0x¯

.s=1n1i=1n(xiμ0)2

Para mim, essa abordagem parece mais natural, pois, consequentemente, usamos a hipótese nula também para estimar o DP. Alguém sabe se a estatística resultante é usada em um teste ou sabe, por que não?

Michael
fonte
Eu acompanho essa pergunta porque estava prestes a publicá-la e a SE me avisou. Eu queria saber se existem documentos de referência sobre esta questão. Intuitivamente, seria definitivamente uma estimativa melhor deσ2, e a distribuição de ˉ x -μ0s2=1 1n(xEu-μ0 0)2σ2 poderia ser derivado (não um aluno, presumivelmente). Qualquer referência será apreciada! x¯-μ0 0s/n
AG

Respostas:

6

Houve um problema com a simulação original neste post, que agora está corrigido.

Embora a estimativa do desvio padrão da amostra tenda a crescer junto com o numerador, à medida que a média se desvia de , isso resulta em não ter um efeito tão grande na potência em níveis de significância "típicos", porque em amostras médias e grandes, s / μ0 0 ainda tende a ser grande o suficiente para rejeitar. Porém, em amostras menores, pode ter algum efeito, e em níveis de significância muito pequenos, isso pode se tornar muito importante, porque colocará um limite superior na potência que será menor que 1.s/n

x¯-μ

Isso significa que o teste não tem mais uma distribuição t abaixo do nulo. Não é uma falha fatal, mas significa que você não pode simplesmente usar tabelas e obter o nível de significância que deseja (como veremos em um minuto). Ou seja, o teste se torna conservador e isso afeta o poder.

À medida que n se torna grande, essa dependência se torna menos problemática (principalmente porque você pode invocar o CLT para o numerador e usar o teorema de Slutsky para dizer que há uma distribuição normal assintótica para a estatística modificada).

μ0 0sn=10

n = 10

insira a descrição da imagem aqui

Você pode ver que a curva de potência é mais baixa (piora com tamanhos de amostra mais baixos), mas muito disso parece ser porque a dependência entre numerador e denominador diminuiu o nível de significância. Se você ajustar os valores críticos adequadamente, haveria pouco entre eles, mesmo em n = 10.

n=30

n = 30

insira a descrição da imagem aqui

Isso sugere que, em tamanhos de amostra não pequenos, não há muito entre eles, desde que você não precise usar níveis de significância muito pequenos.

Glen_b -Reinstate Monica
fonte
9

nn-1 1μ0 0

x¯μ0 0

x¯

Greg Snow
fonte