Eu sempre discordei, e nunca recebi uma boa resposta, de como é possível que o teorema do limite central - a versão clássica em que a distribuição da amostra se aproxima da normalidade - possa ser aplicado para dizer uma distribuição de Poisson ou Gama, em que . Ou, nesse caso, qualquer outra distribuição para a qual , ou talvez .
Como exemplo, dada uma distribuição Gamma, como o número de amostras , , , para alguns . Mas se , . Simplesmente nunca, NUNCA haverá um . Isso me sugere que a distribuição de não pode ser, nem se aproximar, da normalidade porque deve necessariamente ser , , que não atende aos requisitos de uma distribuição normal, onde .
Eu me sentiria muito melhor com a vida e qualquer coisa baseada no CLT se alguém pudesse me ajudar a entender para onde minha lógica se desviava.
fonte
Respostas:
Essa é uma excelente pergunta, pois mostra que você está pensando nos aspectos intuitivos dos teoremas que está aprendendo. Isso coloca você à frente da maioria dos estudantes que aprendem o CLT. Aqui, tentarei fornecer uma explicação de como é possível que o CLT retenha variáveis aleatórias com suporte restrito.
O teorema clássico do limite central se aplica a qualquer sequência consiste em variáveis aleatórias independentes e identicamente distribuídas com média arbitrária e finito variação diferente de zero . Agora, suponha que você tenha uma sequência desse tipo, e eles sejam delimitados por e, portanto, seu suporte não cobre toda a linha real.X1,X2,X3,...∼IID Dist(μ,σ2) μ 0<σ2<∞ xmin⩽Xi⩽xmax
O teorema do limite central refere-se à distribuição da média da amostra , e do suporte restrito às variáveis aleatórias subjacentes em Na sequência, essa estatística também deve obedecer aos limites . Assim, a trama engrossa - a média da amostra que é o assunto do teorema também é limitada! Como o CLT pode aguentar se for esse o caso?X¯n≡1n∑ni=1Xi xmin⩽X¯n⩽xmax
Seu problema deriva do fato de que a aproximação distributiva resultante desse teorema aproxima uma distribuição com suporte limitado por outro com suporte ilimitado e, portanto, não pode estar correta. Você está certo sobre isso - a aproximação distributiva para grande é apenas uma aproximação e, de fato, especifica incorretamente a probabilidade de que a média da amostra esteja fora de seus limites (fornecendo essa probabilidade positiva).n
No entanto, o CLT não é uma afirmação sobre uma aproximação distributiva para finito . Trata-se da distribuição limitadora da média da amostra padronizada . Os limites dessa quantidade são:n
Agora, como , temos limites e que significa que os limites da amostra padronizada se tornam mais amplos e mais amplo e converge no limite para toda a linha real. (Ou, para ser um pouco mais formal, para qualquer ponto da linha real, os limites passarão a abranger esse ponto para um número suficientemente grande de .) Uma conseqüência disso é que a probabilidade atribuída às partes fora dos limites pela normalidade a distribuição converge para zero como .n→∞ zmin→−∞ zmax→∞ n n→∞
Aqui chegamos ao cerne da questão sobre suas dúvidas sobre o CLT. É verdade que, para qualquer finito , uma aproximação normal à distribuição da média da amostra dará probabilidade positiva a subconjuntos de valores que estão fora dos limites do suporte verdadeiro. No entanto, quando assumimos o limite essa probabilidade positiva errônea converge para zero. A aproximação distributiva à média da amostra padronizada converge para a verdadeira distribuição dessa quantidade no limite, mesmo que a aproximação não seja exatamente válida para finito .n n→∞ n
fonte
Sua fonte de confusão deriva de duas fontes:
1) O CLT aplica-se aos meios normalizados da amostra, ou seja:
que é centrado em torno de 0, portanto, admite valores negativos com probabilidade positiva. Como um exemplo extremo, se então pode ser negativo para Poisson . De fato, você pode concluir facilmente que, se nunca for negativo, deverá ser constante (portanto ).n=1 X1−μσ X1 Zn Xi σ=0
2) O CLT para finito é apenas um resultado local em torno da média. Em outras palavras, o fato de que é aproximadamente (o CDF normal), normal tende a ser mais verdadeiro para próximo a 0. Quando não for grande o suficiente, em relação a , isso aproximação quebra.n P(Zn≤x) ϕ(x) x n x
Se você diz, medindo a altura das pessoas, uma aproximação normal padrão pode implicar que a altura negativa tem probabilidade positiva. Isso é falso, já que a maioria dos adultos tem alturas entre 4 e 7 pés; portanto, a aproximação quebraria além desses limites se seu for pequeno.n
Como alternativa, se e , serão necessárias muitas realizações de para inferir situações em que é negativo, de modo que seja principalmente positivo, e você pode ( erroneamente) concluem que nunca pode ser negativo.P(Xi=1)=0.99999 P(Xi=−1)=0.00001 Xi Xi Zn
fonte