Para calcular o intervalo de confiança (IC) para média com desvio padrão populacional desconhecido (dp), estimamos o desvio padrão populacional empregando a distribuição t. Notavelmente, que . Porém, como não temos uma estimativa pontual do desvio padrão da população, estimamos através da aproximação que
De forma contrastante, para a proporção da população, para calcular o IC, aproximamos como que fornecida e
Minha pergunta é: por que somos complacentes com a distribuição padrão para proporção populacional?
Respostas:
As distribuições padrão Normal e Student t são aproximações bastante pobres da distribuição de
paran, pequeno , tão ruim que o erro diminui as diferenças entre essas duas distribuições.
Aqui é uma comparação de todas as três distribuições (omitindo os casos onde ou são zero, em que a razão é indefinido) para n = 10 , p = 1 / 2 :p^ 1−p^ n=10,p=1/2:
A distribuição "empírica" é o deZ, que devem ser discretas porque a estimativas p estão limitadas ao conjunto finito { 0 , 1 / n , 2 / n , ... , N / N } .p^ {0,1/n,2/n,…,n/n}.
A distribuiçãot parece fazer um trabalho melhor de aproximação.
Paran=30 e p=1/2, você pode ver a diferença entre as distribuições padrão Normal e t de Student é completamente insignificante:
Como a distribuição Student t é mais complicada do que o Normal normal (é realmente uma família inteira de distribuições indexadas pelos "graus de liberdade", exigindo anteriormente capítulos inteiros de tabelas em vez de uma única página), o Normal normal é usado para quase todas as aproximações.
fonte
A justificativa para usar a distribuição t no intervalo de confiança para uma média depende da suposição de que os dados subjacentes seguem uma distribuição normal, o que leva a uma distribuição qui-quadrado ao estimar o desvio padrão e, portanto,x¯−μs/n√∼tn−1 . Esse é um resultado exato sob a suposição de que os dados são exatamente normais, o que leva a intervalos de confiança com exatamente 95% de cobertura ao usart e menos de 95% de cobertura ao usarz .
No caso de intervalos de Wald para proporções, você só tem normalidade assintótica para p - pp^−pp^(1−p^)/n√ quando n é suficientemente grande, o que depende de p. A probabilidade real de cobertura do procedimento, uma vez que as contagens subjacentes de sucessos são discretas, está algumas vezes abaixo e algumas vezes acima da probabilidade nominal de cobertura de 95%, dependendo do valor desconhecidop . Portanto, não há justificativa teórica para o uso det , e não há garantia de que, do ponto de vista prático, o uso det apenas para aumentar os intervalos ajude a alcançar uma cobertura nominal de 95%.
A probabilidade de cobertura pode ser calculada exatamente, embora seja bastante simples simulá-la. O exemplo a seguir mostra a probabilidade de cobertura simulada quando n = 35. Isso demonstra que a probabilidade de cobertura para o uso do intervalo z é geralmente um pouco menor que 0,95, enquanto a probabilidade de cobertura para o intervalo t geralmente pode ser menor, próximo a 0,95, em média, dependendo de suas crenças anteriores sobre os valores plausíveis de p .
fonte
Tanto o AdamO quanto o jsk dão uma ótima resposta.
Eu tentaria repetir seus pontos com inglês simples:
Quando a distribuição subjacente é normal, você sabe que existem dois parâmetros: média e variância . A distribuição T oferece uma maneira de deduzir a média sem saber o valor exato das variações. Em vez de utilizar as variações reais, apenas de exemplo meios e amostras variâncias são necessários. Por ser uma distribuição exata, você sabe exatamente o que está recebendo. Em outras palavras, a probabilidade de cobertura está correta. O uso de t simplesmente reflete o desejo de contornar a variação desconhecida da população.
Quando fazemos inferência em proporção, no entanto, a distribuição subjacente é binomial. Para obter a distribuição exata, é necessário observar os intervalos de confiança de Clopper-Pearson. A fórmula que você fornece é a fórmula para o intervalo de confiança de Wald. Ele usa a distribuição normal para aproximar a distribuição binomial, porque a distribuição normal é a distribuição limitadora da distribuição binomial. Nesse caso, como você está apenas aproximando, o nível extra de precisão do uso de estatísticas t se torna desnecessário, tudo se resume ao desempenho empírico. Como sugerido na resposta do BruceET, o Agresti-Coull é hoje uma fórmula simples e padrão para essa aproximação.
Meu professor Dr. Longnecker, do Texas A&M, fez uma simulação simples para ilustrar como as diferentes aproximações funcionam em comparação com o IC baseado em binômio.
Mais informações podem ser encontradas no artigo Estimativa de intervalos para uma proporção binomial em Statistical Science , vol. 16, pp.101-133, por L. Brown, T. Cai e A. DasGupta. Basicamente, o IC AC é recomendado para n> = 40.
fonte
fonte
Além disso, deve-se notar que esta pergunta reflete a resposta solicitada por essa pergunta .
fonte