Quando n aumenta, o valor t aumenta em um teste de hipótese, mas a tabela t é exatamente o oposto. Por quê?

Estes são dois fenômenos diferentes:

$t$ estatístico

Mantendo tudo o mais constante, se aumentar, o valor deve aumentar como uma simples questão de aritmética. Considere a fração no denominador , se aumentar, então também aumentará (embora mais lentamente), porque a raiz quadrada é uma transformação monotônica. Como a raiz quadrada de é o denominador dessa fração, à medida que ela aumenta, a fração fica menor. No entanto, essa fração é, por sua vez, um denominador. Como resultado, conforme esse denominador diminui, a segunda fração aumenta. Assim, o valor aumentará à medida que aumentar. (Assumindo, novamente, que $N$ $t$ $\hat\sigma/\sqrt{n}$ $n$ $\sqrt n$ $n$ $t$ $n$ $\hat\sigma$ e permanecem os mesmos.) $(\bar x - \mu_{\rm null})$

O que isso significa conceitualmente? Bem, quanto mais dados tivermos / quanto mais próximo o tamanho da amostra do tamanho da população, menor a média da amostra tenderá a variar da média da população devido a erro de amostragem (cf. lei dos grandes números ). Com uma população pequena e finita, é fácil ver isso, mas, embora possa não ser tão intuitivo, o mesmo vale se a população for infinita. Como a média da amostra ( $\bar x$ ) não deve flutuar muito longe do valor de referência (nulo), podemos estar mais confiantes de que a distância observada da média da amostra a partir do nulo é porque o valor nulo não é realmente a média da população da qual a amostra foi retirada . Mais precisamente, torna-se cada vez menos provável encontrar uma média da amostra que esteja muito ou mais distante do valor nulo, se o valor nulo realmente for a média da população da qual a amostra foi extraída.
$t$ distribuição

Quando você olha para uma tabela (digamos, no final de um livro de estatísticas), o que realmente está vendo é uma tabela de valores críticos . Ou seja, o valor que a estatística observada deve ser maior que para que o teste seja 'significativo' nesse alfa. (Normalmente, eles estão listados para um pequeno número de alfas possíveis: .) Suspeito que, se você olhar com atenção para essas tabelas, elas são realmente pensando em termos dos graus de liberdade associados à estatística em questão. Observe que os graus de liberdade para a estatística são uma função de , sendo $t$ $t$ $\alpha=\{.10,\ .05,\ .01,\ .001\}$ $t$ $t$ $n$ $df = n-2$ para um teste dois grupos ou para um teste um grupo (seu exemplo parece ser o último). Isso tem a ver com o fato de que a distribuição convergirá para uma distribuição normal padrão à medida que os graus de liberdade se aproximam do infinito. $t$ $df = n-1$ $t$ $t$

A maneira de entender isso conceitualmente é pensar por que você precisa usar a distribuição em primeiro lugar. Você sabe qual é o valor médio de referência no qual está interessado e a amostra significa que observou. Se a população da qual as amostras foram coletadas foi normalmente distribuída (o que as pessoas costumam assumir implicitamente), sabemos que a distribuição amostral da média também será normalmente distribuída. Então, por que se preocupar com a distribuição ? A resposta é que não sabemos ao certo qual é o desvio padrão da população. (Se tivéssemos certeza, realmente usaríamos a distribuição normal, ou seja, o teste vez do teste .) Portanto, usamos o desvio padrão da nossa amostra, $t$ $t$ $z$ $t$ $\hat\sigma$ , como proxy para o valor desconhecido da população. No entanto, quanto mais dados tivermos, mais seguros podemos ter de que é de fato aproximadamente o valor certo. À medida que aproxima do tamanho da população (e / ou infinito), podemos ter certeza de que é exatamente o valor certo. Assim, a distribuição torna-se a distribuição normal . $\hat\sigma$ $n$ $\hat\sigma$ $t$

- Reinstate Monica
fonte

Essa é uma ótima resposta longa. Por que não passar dos comentários para ser a resposta?

Harvey Motulsky

Obrigado, @HarveyMotulsky. O que você quer dizer com a última frase? É postado como uma resposta, não como um comentário.

gung - Restabelece Monica

Ou algo mudou no último minuto, ou eu vi errado. É uma ótima resposta, e postada como tal.

Harvey Motulsky

Isso significa que o n que usamos na fórmula do valor t não tem nada a ver com a fórmula usada para gerar os valores t críticos? O que me deixa confuso é que, à medida que o df (que é uma função de n) aumenta na tabela t, os valores t críticos diminuem, ao passo que não é o caso do valor t da fórmula na pergunta original. Embora vejamos o mesmo n em ambos os lugares (tabela e fórmula), eles agem de maneira diferente.

leviatã

(Aliás, acredito que minha resposta está direcionada à sua pergunta conforme editada. Deixe-me saber se ainda há alguma falta de clareza.)

gung - Reinstate Monica

Bem, a resposta curta é isso que cai fora da matemática. A resposta longa seria fazer as contas . Em vez disso, tentarei reformular a explicação de Gung de que essas são duas coisas diferentes (embora relacionadas). $^3$

$X_1...X_n$ $^4$ $\mu$ $\bar{x}=\mu$ $t$ $^1$ $n$

$t$ $^2$ $n-1$ $t$ distribuição t, df = 2,3,5,20 $t$ -value é o local x onde a área sob a curva é igual a um valor arbitrário de sua escolha (tradicionalmente 0,05). Esses valores são marcados no gráfico como pontos. Portanto, para a curva verde (df = 5), a área sob a curva à esquerda do ponto verde esquerdo = 0,025 e a área sob a curva à direita do ponto verde direito = 0,025, para um total de 0,05.

$t$ $\infty$

$t$ $t$ $t$ $\bar{x}=\mu$

$^1$ $^3$
$z$ $z$
$^2$ $^3$
$^3$
$^4$

Afim
fonte

Quando n aumenta, o valor t aumenta em um teste de hipótese, mas a tabela t é exatamente o oposto. Por quê?

Respostas: