Por que não usar a distribuição T para estimar a média quando a amostra é grande?

17

Os cursos de estatística básica geralmente sugerem o uso de uma distribuição normal para estimar a média de um parâmetro populacional quando o tamanho da amostra n é grande (geralmente acima de 30 ou 50). A distribuição T do aluno é usada para tamanhos de amostra menores, para explicar a incerteza no desvio padrão da amostra. Quando o tamanho da amostra é grande, o desvio padrão da amostra fornece boas informações sobre o desvio padrão da população, permitindo uma estimativa de distribuição normal. Entendi.

Mas por que usar uma estimativa quando você pode obter exatamente o seu intervalo de confiança? Independentemente do tamanho da amostra, qual é o sentido de usar a distribuição normal se é apenas uma estimativa de algo que você pode obter exatamente com a distribuição T?

Pertinax
fonte
@Glen_b Sim, isso seria estimadores de intervalo. Com relação a esses intervalos: "Você deve usar a tabela de distribuição t quando estiver trabalhando com problemas quando o desvio padrão da população (σ) não for conhecido e o tamanho da amostra for pequeno (n <30)" (em web.pdx.edu/~stipakb/ download / PA551 / NormalVersusTdistribution.doc). Por que as pessoas não usam a distribuição T o tempo todo quando o desvio padrão da população não é conhecido (mesmo quando n> 30)?
Pertinax

Respostas:

15

Apenas para esclarecer em relação ao título, não estamos usando a distribuição t para estimar a média (no sentido de uma estimativa pontual, pelo menos), mas para construir um intervalo para ele.

Mas por que usar uma estimativa quando você pode obter exatamente o seu intervalo de confiança?

É uma boa pergunta (desde que não sejamos insistentes demais em 'exatamente', pois as suposições para que seja exatamente distribuído em t não serão realmente válidas).

"Você deve usar a tabela de distribuição t quando estiver trabalhando com problemas quando o desvio padrão da população (σ) não for conhecido e o tamanho da amostra for pequeno (n <30)"

Por que as pessoas não usam a distribuição T o tempo todo quando o desvio padrão da população não é conhecido (mesmo quando n> 30)?

Considero os conselhos como - na melhor das hipóteses - potencialmente enganosos. Em algumas situações, a distribuição t ainda deve ser usada quando os graus de liberdade forem bem maiores que isso.

Onde o normal é uma aproximação razoável, depende de uma variedade de coisas (e assim depende da situação). No entanto, como (com computadores) não é nada difícil de usar t , mesmo que o df seja muito grande, você deve se perguntar por que precisa se preocupar em fazer algo diferente em n = 30.

Se os tamanhos das amostras forem realmente grandes, não fará uma diferença perceptível em um intervalo de confiança, mas não acho que n = 30 esteja sempre suficientemente próximo de 'realmente grande'.


Há uma circunstância em que pode fazer sentido usar o normal em vez do t - é quando seus dados claramente não satisfazem as condições para obter uma distribuição t, mas você ainda pode argumentar sobre a normalidade aproximada da média (se n é bastante grande). No entanto, nessas circunstâncias, geralmente o t é uma boa aproximação na prática e pode ser um pouco "mais seguro". [Em uma situação como essa, posso estar inclinado a investigar via simulação.]

Glen_b -Reinstate Monica
fonte
2
Li em algum lugar deste documento que é bom quando α = 5 % . Mas não tenho certeza se é suficiente. n=30α=5%
Stéphane Laurent
1
@ StéphaneLaurent Para a maioria dos propósitos, deve ficar bem em 5%, mas esses julgamentos dependem muito do indivíduo. Há situações - encontrei uma apenas hoje - em que esse nível de erro pode ser suficiente para importar.
Glen_b -Reinstala Monica
2
@ StéphaneLaurent Você pode obter uma visão decente de Johnson, VE (2013). Padrões revisados ​​para evidência estatística . Anais da Academia Nacional de Ciências , 110 (48): 19313–19317. Este artigo enquadra na do pós- Por que os resultados da investigação mais publicadas são falsas crítica da pesquisa ( a la Como a ciência for errada )
Alexis
4
@ StéphaneLaurent Seu artigo responde à minha pergunta. Para o registro, uma tradução aproximada de sua conclusão: "O uso da distribuição normal como uma aproximação à distribuição t de Student é exclusivamente o produto das limitações tecnológicas do século XX. Essas limitações desapareceram com o software estatístico moderno e não existe mais. qualquer razão para usar essas aproximações não conservadoras ".
Pertinax
2
@ TheThunderChimp Advertência: se a variação populacional é conhecida (por exemplo, estimar a proporção da população - média de uma variável dicotômica), então o normal normal ( z ) e não a distribuição t são adequados.
Alexis19 /
7

É um anacronismo histórico. Existem muitos deles nas estatísticas.

Se você não tinha um computador, era difícil usar a distribuição t e muito mais fácil usar uma distribuição normal. Uma vez que o tamanho da amostra aumenta, as duas distribuições se tornam semelhantes (quão grande é 'grande' é outra questão).

Jeremy Miles
fonte
1
Parece uma resposta bastante superficial para uma pergunta mais profunda.
Alexis
2
Não tenho certeza do que você quer dizer. Você não acha que essa é a razão? (A resposta mais upvoted faz o mesmo ponto - embora mais eloquente e elaboradamente.)
Jeremy Miles
1
Votei mal porque sua resposta me dizia o seguinte: porque a história. Breve recapitulação da sua pergunta.
Alexis
2
Obrigado por me informar - é melhor do que um voto anônimo que eu não sabia o motivo.
Jeremy Miles
3
Historicamente, um "usou" essas distribuições pesquisando valores em tabelas. A única maneira pela qual seria mais fácil usar uma distribuição Normal seria não precisar escolher a coluna correspondente aos graus de liberdade. Isso dificilmente é uma preocupação. O que limitou o uso foi que, em algum momento, faz pouco sentido expandir as tabelas para grandes graus de liberdade: os livros se tornariam muito grandes.
whuber
1

e-x2n

VictorZurkowski
fonte
1
Em que tamanhos os erros numéricos na estimativa de t superam os ganhos de seu uso?
Jona
2
certamente você pode calcular os valores t com precisão arbitrária e, portanto, eles podem ser tão precisos quanto as quantidades com as quais você está comparando.
Neil G
"Em outras palavras, o valor t" exato "não é" exato "e, dentro do erro de aproximação, o valor é o mesmo que o valor do CDF para o normal padrão." Não tenho certeza se essa é uma regra prática confiável.
shadowtalker
2
-25,9325×1016
1
Whuber, você está certo. Eu usei "erro numérico" incorretamente. Eu quis dizer todos os erros que manipulam números: aproximação numérica das integrais, erros numéricos para trabalhar com precisão finita e erros numéricos devido ao truncamento. Se alguém pudesse trabalhar com precisão infinita, não haveria justificativa para a substituição da distribuição t com normal
VictorZurkowski