Confusão em relação a quando usar estatísticas

15

Eu estava me referindo a esta vídeo aula para calcular o intervalo de confiança . No entanto, tenho alguma confusão. Esse cara está usando estatísticas para o cálculo. No entanto, acho que deveria ter sido uma estatística t . Não nos é dado o verdadeiro desvio padrão da população. Estamos usando o desvio padrão da amostra para estimar o verdadeiro.zt

Então, por que ele levou a distribuição normal para o intervalo de confiança, em vez de ?t

user34790
fonte
Apenas como referência, trabalhando fora o problema exposto no vídeo com uma t estatística renderia: n <- 36; diff <- 12; sd <- 40; 2 * (pt(diff/(sd/sqrt(n)), df = n - 1) - 0.5) = 0.9195145.
Antoni Parellada

Respostas:

10

Você está correto, deve ser uma distribuição t. Porém, como o tamanho da amostra é 36 (ou seja,> 20), a distribuição az também seria apropriada. Lembre-se, à medida que o tamanho da amostra aumenta, a distribuição t se torna mais semelhante à distribuição z em forma.

Grayskin
fonte
21

Quando eu fiz meu primeiro curso de estatística (depois dos dinossauros, mas quando computadores reais ainda ocupavam uma sala inteira), fomos ensinados a usar a tabela z se houvesse mais de 30 graus de liberdade, em parte porque a tabela t do livro apenas subiu até 30 graus de liberdade e, se você olhar para a tabela t, verá que, em torno de 28 graus de liberdade, obtém os mesmos resultados que a tabela z para 2 dígitos significativos (e, ao fazer tudo isso manualmente, tendemos a arredondar com mais frequência). Talvez o apresentador ainda esteja nessa escola.

Você está certo de que, se estiver usando o desvio padrão da amostra para um teste, significa que você realmente deve usar a distribuição t independentemente do tamanho (o que é muito mais fácil de fazer hoje em dia) e usar apenas z (padrão normal) quando conheça o desvio padrão da população, mas, para fins práticos, muitas vezes você não verá uma diferença significativa se o tamanho da amostra for grande.

Greg Snow
fonte
11
Grande anedota :)
Swiecki
Um efeito colateral lamentável do fato de que às vezes é aceitável usar intervalos z é que alguns textos introdutórios apresentam intervalos z em vez de intervalos t. Existem muitas áreas da ciência nas quais as amostras são rotineiramente pequenas o suficiente para que os intervalos z sejam totalmente inapropriados. Eu digo aos meus alunos sobre isso todos os anos, com instruções explícitas, mas ainda um número substancial deles usam z-intervalos :-(
Michael Lew - Reintegrar Monica
4

Estou tendo dificuldade para descobrir se Khan apenas simplificou as coisas no vídeo ou se ele está errado. Eu teria que dizer o último, mas o problema não está na questão z ou t . Ele está chamando o que ele calcula de um intervalo de confiança e depois diz que está 92% confiante de que a média da população se enquadra no intervalo especificado. Isso simplesmente não é algo que você conclua a partir de um intervalo de confiança ... infelizmente.

Então, volto à pergunta t vs. z e começo a me perguntar se ele cometeu algum erro lá. Estou pensando que talvez não, porque ele afirma que, se a amostra é menor, você precisa fazer uma correção. Portanto, os outros respondentes provavelmente estão corretos nisso. Ele está usando o z porque ele já o introduziu e está próximo o suficiente de n de 36. Não planejo passar por todos os vídeos, mas imagino que ele apresentará a distribuição t mais tarde, espero o próximo.

É realmente lamentável que a Khan Academy esteja errada em tantas áreas das estatísticas ... mas talvez eu me sinta assim porque só sou apontada para vídeos com problemas.

John
fonte