Seja uma família de variáveis aleatórias iid assumindo valores em , tendo uma média e variância . Um intervalo de confiança simples para a média, usando sempre que for conhecido, é dado por
Além disso, como é distribuído assintoticamente como uma variável aleatória normal padrão, a distribuição normal às vezes é usada para "construir" um intervalo de confiança aproximado.
Nos exames estatísticos de respostas de múltipla escolha, eu tive que usar essa aproximação em vez de sempre que . Eu sempre me senti muito desconfortável com isso (mais do que você pode imaginar), pois o erro de aproximação não é quantificado.
Por que usar a aproximação normal em vez de ?
Não quero mais aplicar cegamente a regra . Existem boas referências que podem me apoiar na recusa de fazê-lo e fornecer alternativas apropriadas? ( é um exemplo do que considero uma alternativa apropriada.)
Aqui, enquanto e são desconhecidos, eles são facilmente delimitados.
Observe que minha pergunta é uma solicitação de referência, particularmente sobre intervalos de confiança e, portanto, é diferente das que foram sugeridas como duplicatas parciais aqui e aqui . Não é respondido lá.
Respostas:
Por que usar aproximação normal?
É tão simples quanto dizer que é sempre melhor usar mais informações do que menos. A equação (1) usa o teorema de Chebyshev . Observe como ele não usa nenhuma informação sobre o formato da sua distribuição, ou seja, funciona para qualquer distribuição com uma determinada variação. Portanto, se você usar algumas informações sobre o formato da sua distribuição, deverá obter uma melhor aproximação. Se você sabia que sua distribuição é gaussiana, usando esse conhecimento, você obtém uma estimativa melhor.
Como você já está aplicando o teorema do limite central, por que não usar a aproximação gaussiana dos limites? Eles serão melhores, na verdade, mais rígidos (ou mais nítidos), porque essas estimativas são baseadas no conhecimento da forma, que é uma informação adicional.
A regra básica 30 é um mito, que se beneficia do viés de confirmação . Ele continua sendo copiado de um livro para outro. Certa vez, encontrei uma referência sugerindo essa regra em um artigo na década de 1950. Não era nenhum tipo de prova sólida, se bem me lembro. Foi algum tipo de estudo empírico. Basicamente, a única razão pela qual é usada é porque funciona. Você não vê isso violado com muita frequência.
ATUALIZAÇÃO Consulte o artigo de Zachary R. Smith e Craig S. Wells " Teorema do limite central e tamanho da amostra ". Eles apresentam um estudo empírico da convergência para CLT para diferentes tipos de distribuições. O número mágico 30 não funciona em muitos casos, é claro.
fonte
O problema com o uso da desigualdade de Chebyshev para obter um intervalo para o valor verdadeiro é que ele apenas fornece um limite mais baixo para a probabilidade, que além disso é às vezes trivial ou, para não ser trivial, pode fornecer um valor muito amplo. intervalo de confiança. Nós temos
Vemos que, dependendo também do tamanho da amostra, se diminuirmos "demais" obteremos a resposta trivial "a probabilidade é maior que zero".ε
Além disso, o que obtemos dessa abordagem é uma conclusão da forma "" a probabilidade de cair em [ ˉ X ± ε ] é igual ou maior que ... "μ [X¯±ε]
Mas vamos supor que nós estamos bem com isso, e denotam a probabilidade mínima com a qual estamos confortáveis. Então nós queremospmin
Com amostras pequenas e alta probabilidade mínima desejada, isso pode fornecer um intervalo de confiança insatisfatoriamente amplo. Por exemplo, para e n = 100 , vamos obter £ ≈ 0,316 , o que, por exemplo, para a variável tratada pelo PO que é delimitada em [ 0 , 1 ] parece ser demasiado grande para ser útil.pmin=0.9 n=100 ε≈.316 [0,1]
Mas a abordagem é válida, sem distribuição e, portanto, pode haver casos em que possa ser útil.
Pode-se verificar também a desigualdade Vysochanskij – Petunin mencionada em outra resposta, que vale para distribuições unimodais contínuas e refina a desigualdade de Chebyshev.
fonte
A resposta curta é que ela pode correr muito mal, mas apenas se uma ou ambas as caudas da distribuição da amostra forem realmente gordas .
Esse código R gera um milhão de conjuntos de 30 variáveis distribuídas gama e leva sua média; pode ser usado para ter uma noção de como é a distribuição amostral da média. Se a aproximação normal funcionar como pretendido, os resultados deverão ser aproximadamente normais com média 1 e variação
1/(30 * shape)
.f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}
Quando
shape
é 1.0, a distribuição gama se torna uma distribuição exponencial , o que é bastante incomum. No entanto, as partes não-gaussianas são na maioria médias e, portanto, a aproximação gaussiana não é tão ruim:Claramente, existe algum viés, e seria bom evitá-lo quando possível. Mas, honestamente, esse nível de viés provavelmente não será o maior problema enfrentado por um estudo típico.
Dito isto, as coisas podem ficar muito piores. Com
f(0.01)
, o histograma fica assim:A transformação de log dos 30 pontos de dados amostrados antes da média ajuda muito, no entanto:
Em geral, distribuições com caudas longas (em um ou nos dois lados da distribuição) exigirão mais amostras antes que a aproximação gaussiana comece a se tornar confiável. Existem até casos patológicos em que literalmente nunca haverá dados suficientes para a aproximação gaussiana funcionar, mas você provavelmente terá problemas mais sérios nesse caso (porque a distribuição da amostra não tem uma média ou variação bem definida para começar). com).
fonte
Problema com o intervalo de confiança Chebyshev
Comparing the lengths of the confidence intervals
Consider the(1−α) -level confidence interval lengths ℓZ(α,n) and ℓC(α,n) obtained using the normal approximation (σ=12 ) and the Chebyshev inequality, repectively. It turns out that ℓC(α,n) is a constant times bigger than ℓZ(α,n) , independently of n . Precisely, for all n ,
In particular, the95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.
Using Hoeffding's bound
Hoeffding's bound gives
fonte
curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
let's start with the number 30: it's, as anyone will say, a rule of thumb. but how can we find a number that fits better to our data? It's actually mostly a matter of skewness: even the strangest distribution will fast converge to normal if they are simmetric and continuous, skewed data will be much slower. I remember learning that a binomial distribution can be properly approximated to normal when its variance is greater than 9; for this example it's to be considered that discrete distribution also have the problem that they need great numbers to simulate continuity, but think to this: a simmetric binomial distribution will reach that variance with n = 36, if p = 0.1 instead, n must go up to 100 (variabile trasformation, however, would help a lot)!
If you only want to use variance instead, dropping gaussian approximation, consider Vysochanskij–Petunin inequality over Chebichev's, it needs the assumption of unimodal distribution of the mean, but this is a very safe one with any sample size, I'd say, greater than 2.
fonte