Os cursos de estatística básica geralmente sugerem o uso de uma distribuição normal para estimar a média de um parâmetro populacional quando o tamanho da amostra n é grande (geralmente acima de 30 ou 50). A distribuição T do aluno é usada para tamanhos de amostra menores, para explicar a incerteza no desvio padrão da amostra. Quando o tamanho da amostra é grande, o desvio padrão da amostra fornece boas informações sobre o desvio padrão da população, permitindo uma estimativa de distribuição normal. Entendi.
Mas por que usar uma estimativa quando você pode obter exatamente o seu intervalo de confiança? Independentemente do tamanho da amostra, qual é o sentido de usar a distribuição normal se é apenas uma estimativa de algo que você pode obter exatamente com a distribuição T?
Respostas:
Apenas para esclarecer em relação ao título, não estamos usando a distribuição t para estimar a média (no sentido de uma estimativa pontual, pelo menos), mas para construir um intervalo para ele.
É uma boa pergunta (desde que não sejamos insistentes demais em 'exatamente', pois as suposições para que seja exatamente distribuído em t não serão realmente válidas).
Considero os conselhos como - na melhor das hipóteses - potencialmente enganosos. Em algumas situações, a distribuição t ainda deve ser usada quando os graus de liberdade forem bem maiores que isso.
Onde o normal é uma aproximação razoável, depende de uma variedade de coisas (e assim depende da situação). No entanto, como (com computadores) não é nada difícil de usart , mesmo que o df seja muito grande, você deve se perguntar por que precisa se preocupar em fazer algo diferente em n = 30.
Se os tamanhos das amostras forem realmente grandes, não fará uma diferença perceptível em um intervalo de confiança, mas não acho que n = 30 esteja sempre suficientemente próximo de 'realmente grande'.
Há uma circunstância em que pode fazer sentido usar o normal em vez dot - é quando seus dados claramente não satisfazem as condições para obter uma distribuição t, mas você ainda pode argumentar sobre a normalidade aproximada da média (se n é bastante grande). No entanto, nessas circunstâncias, geralmente o t é uma boa aproximação na prática e pode ser um pouco "mais seguro". [Em uma situação como essa, posso estar inclinado a investigar via simulação.]
fonte
É um anacronismo histórico. Existem muitos deles nas estatísticas.
Se você não tinha um computador, era difícil usar a distribuição t e muito mais fácil usar uma distribuição normal. Uma vez que o tamanho da amostra aumenta, as duas distribuições se tornam semelhantes (quão grande é 'grande' é outra questão).
fonte
fonte