Por que o Teorema do Limite Central é quebrado na minha simulação?

21

Digamos que eu tenha os seguintes números:

4,3,5,6,5,3,4,2,5,4,3,6,5

Eu amostro alguns deles, digamos, 5 deles, e calculo a soma de 5 amostras. Repito isso repetidamente para obter muitas somas e planto os valores das somas em um histograma, que será gaussiano devido ao Teorema do Limite Central.

Mas quando eles estão seguindo números, substituí 4 por um grande número:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

A amostragem de 5 amostras dessas nunca se torna gaussiana no histograma, mas mais como uma divisão e se torna duas gaussianas. Por que é que?

JimSD
fonte
1
Não fará isso se você aumentar para além de n = 30 ou mais ... apenas minha suspeita e versão mais sucinta / reafirmar a resposta aceita abaixo.
oemb1905 10/03
@JimSD, o CLT é um resultado assintótico (ou seja, sobre a distribuição de médias ou somas padronizadas da amostra no limite conforme o tamanho da amostra chega ao infinito). não é . O que você está olhando (a abordagem para a normalidade em amostras finitas) não é estritamente um resultado do CLT, mas um resultado relacionado. n=5n
Glen_b -Reintegra Monica
3
@ oemb1905 n = 30 não é suficiente para o tipo de distorção que o OP está sugerindo. Dependendo de quão rara é a contaminação com um valor como , pode levar n = 60 ou n = 100 ou até mais antes que o normal pareça uma aproximação razoável. Se a contaminação for de cerca de 7% (como na pergunta) n = 120 ainda está um pouco distorcido107
Glen_b -Reinstate Monica
Pense que valores em intervalos como (1.100.000, 1.900.000) nunca serão atingidos. Mas se você fizer meios de uma quantia decente essas somas, ele funcionará!
David

Respostas:

18

Vamos lembrar, precisamente, o que o teorema do limite central diz.

Se são variáveis ​​aleatórias independentes e identicamente distribuídas com média (compartilhada) e desvio padrão , então converge na distribuição para uma distribuição normal padrão (*).X1,X2,,XkμσX1+X2++XkkσkN(0,1)

Isso é frequentemente usado na forma "informal":

Se forem variáveis ​​aleatórias independentes e identicamente distribuídas com média (compartilhada) e desvio padrão , converge "na distribuição" para uma distribuição normal padrão .X1,X2,,XkμσX1+X2++XkN(kμ,kσ)

Não há uma boa maneira de tornar essa forma do CLT matematicamente precisa, pois a distribuição "limite" muda, mas é útil nas práticas.

Quando temos uma lista estática de números como

4,3,5,6,5,3,10000000,2,5,4,3,6,5

e estamos amostrando, tomando um número aleatoriamente desta lista, para aplicar o teorema do limite central, precisamos ter certeza de que nosso esquema de amostragem satisfaz essas duas condições de independência e distribuição idêntica.

  • Distribuir identicamente não é um problema: é provável que cada número da lista seja escolhido.
  • Independente é mais sutil e depende do nosso esquema de amostragem. Se estivermos amostrando sem substituição , violamos a independência. Somente quando amostramos com substituição que o teorema do limite central é aplicável.

Portanto, se usarmos a amostragem de substituição em seu esquema, poderemos aplicar o teorema do limite central. Ao mesmo tempo, você está certo, se nossa amostra for do tamanho 5, veremos um comportamento muito diferente, dependendo se um número muito grande for escolhido ou não em nossa amostra.

Então, qual é o problema? Bem, a taxa de convergência para uma distribuição normal depende muito da forma da população da qual estamos amostrando; em particular, se nossa população é muito inclinada, esperamos que demore muito tempo para convergir para o normal. Este é o caso do nosso exemplo, portanto, não devemos esperar que uma amostra do tamanho 5 seja suficiente para mostrar a estrutura normal.

Três distribuições normais

Acima, repeti seu experimento (com amostras de substituição) para amostras dos tamanhos 5, 100 e 1000. Você pode ver que a estrutura normal é emergente para amostras muito grandes.

(*) Observe que algumas condições técnicas são necessárias aqui, como média finita e variância. Eles são facilmente verificados como verdadeiros em nossa amostragem a partir de um exemplo de lista.

Matthew Drury
fonte
Obrigado por uma resposta muito rápida e perfeita. Idéia de CLT, substituição, necessidade de mais amostras quando a distribuição de dados é distorcida, ... Agora está muito claro. Minha intenção original de questionar é, como você mencionou, o caso em que um número grande é incluído sem substituição e o número de amostragem é fixo. Ele se comporta de maneira muito diferente e, portanto, precisamos considerar o CLT "condicional" para o caso em que um número grande é amostrado e o caso não em amostra. Gostaria de saber se existe alguma pesquisa ou trabalho prévio para isso .. Mas obrigado mesmo assim.
JimSD 9/03
não sei se aplicável aqui, mas teorema da convergência CLT regulado pela assimetria en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem
seanv507
Estou um pouco confuso com a definição de @ CLT de MatthewDrury. Eu acho que converge para uma constante pelo LLN, não para uma distribuição normal. Xkk
JTH
1
@ seanv507 terceiro momento absoluto, em vez de distorção; os dois estão relacionados, mas observe que, para uma distribuição simétrica com terceiro momento finito, o Berry-Esseen ligavanão é 0 porque não é assimetria|Fn(x)Φ(x)|ρ/σ3
Glen_b -Reinstala Monica
1
@Glen_b Yah, eu estava sendo um pouco informal (o que talvez eu não devesse ter sido), mas posso consertar isso esta tarde, já que isso levou a um pouco de confusão.
Matthew Drury
12

Em geral, o tamanho de cada amostra deve ser maior que para que a aproximação do CLT seja boa. Uma regra prática é uma amostra de tamanho ou mais. Mas, com a população do seu primeiro exemplo, está OK.5305

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

insira a descrição da imagem aqui

No seu segundo exemplo, devido à forma da distribuição da população (por um lado, é muito distorcida; leia os comentários de guy e Glen_b abaixo), mesmo amostras do tamanho não fornecerão uma boa aproximação para a distribuição de a média da amostra usando o CLT.30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

insira a descrição da imagem aqui

Mas, com essa segunda população, amostras de, digamos, tamanho são boas.100

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

insira a descrição da imagem aqui

zen
fonte
3
Não é a variação que é o problema. Uma maneira de obter controle rigoroso é usar a razão do terceiro momento central para o desvio padrão em cubos, como no teorema de Berry-Esseen.
guy
Perfeito. Adicionado. Tks.
Zen
1
Obrigado por uma resposta rápida, visual e perfeita com um código. Fiquei muito surpreso com o quão rápido foi! Eu não estava ciente do número apropriado de amostragem. Eu estava pensando no caso em que o número de amostragem é fixo.
JimSD 9/03
@ Cara, obrigado por isso. Não conhecia a idéia de "a razão do terceiro momento central para o desvio padrão cúbico no teorema de Berry-Esseen" . Eu só quero abordar o caso em que há um grande número, como o outlier está incluído na distribuição. E esse tipo de distribuição pode ser consultado como você mencionou, suponho. Se você conhece algum trabalho anterior que lide com esse tipo de distribuição, deixe-me saber, obrigado.
JimSD 9/03
2
@guy, o teorema de Berry Esseen é o terceiro momento absoluto sobre a média não apenas o terceiro momento sobre a média . Isso o torna responsivo não apenas à distorção, mas também às caudas pesadas. ρ=E[|Xμ|3]μ3=E[(Xμ)3]
Glen_b -Reinstate Monica
7

Eu só gostaria de explicar, usando funções complexas de geração de cumulantes , por que todo mundo continua culpando isso de maneira distorcida.

Vamos escrever a variável aleatória que você está amostrando como , onde é a média e o desvio padrão para que tenha média e variância . A função de geração cumulativa de é . Aqui indica a inclinação de ; poderíamos escrevê-lo em termos da inclinação da variável original , viz. .μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3

Se dividirmos a soma de amostras da distribuição de por , o resultado terá cgfPara que uma aproximação Normal seja válida em tamanho suficientemente grande para o gráfico parecer correto, precisamos de suficientemente grande . Este cálculo motiva . As duas amostras que você considerou têm valores muito diferentes de .nZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1

JG
fonte
-1

A resposta curta é que você não possui uma amostra grande o suficiente para aplicar o teorema do limite central.

feynman
fonte
1
Que isso não pode ser uma explicação válida é evidente a partir da observação de que o CLT fornece uma boa aproximação para o primeiro conjunto de dados da pergunta, que é igualmente pequeno.
whuber
@ whuber: Eu acho que você está dizendo que a distribuição normal fornece uma aproximação razoavelmente boa para uma amostra de cinco do primeiro conjunto. Como há apenas um número finito de valores para as somas (13 valores possíveis sem substituição e 21 valores possíveis com substituição), a aproximação não melhora muito com um grande número de amostras de cinco, e a aproximação inicial é mais devida a o padrão inicial ...
Henry
@whuber Como a distribuição do primeiro conjunto parece distorcida, eu esperaria que a soma de cinco também fosse distorcida, de uma maneira menos extrema do que eu esperava que a soma de cinco do segundo conjunto estivesse distorcida. Para obter a assimetria para reduzir ainda mais, eu teria pensado que você precisaria de um tamanho de amostra maior
Henry
1
@ Henry Obrigado por seus comentários. Eu não estava fazendo uma observação sobre essas circunstâncias particulares, mas apenas sobre a lógica dessa resposta, na esperança de que ela pudesse ser explicada mais detalhadamente.
whuber