Teorema do limite central e distribuição de Pareto

10

Alguém pode fornecer uma explicação simples (leiga) da relação entre as distribuições de Pareto e o Teorema do Limite Central (por exemplo, aplica-se? Por que / por que não?)? Estou tentando entender a seguinte declaração:

"o Teorema do Limite Central não funciona com todas as distribuições. Isso se deve a um fato furtivo - as médias das amostras estão agrupadas em torno da média da distribuição subjacente, se ela existir. Mas como uma distribuição não tem significado? Bem, uma distribuição comum isso não significa a distribuição Pareto. Se você tentasse calculá-la usando os métodos usuais, ela divergiria para o infinito ".

user1222447
fonte

Respostas:

15

A afirmação não é verdadeira em geral - a distribuição de Pareto tem uma média finita se seu parâmetro de forma ( no link) for maior que 1.α

Quando existem a média e a variância ( ), as formas usuais do teorema do limite central - por exemplo, clássica, Lyapunov, Lindeberg serão aplicadasα>2

Veja a descrição do teorema clássico do limite central aqui

A citação é meio estranha, porque o teorema do limite central (em qualquer uma das formas mencionadas) não se aplica à média da amostra em si, mas a uma média padronizada (e se tentarmos aplicá-la a algo cuja média e variância sejam não finito, precisaríamos explicar com muito cuidado o que realmente estamos falando, já que o numerador e o denominador envolvem coisas que não têm limites finitos).

No entanto (apesar de não ser corretamente expresso por falar sobre teoremas do limite central), ele tem um ponto subjacente - a média da amostra não convergirá para a média da população (a lei fraca de grandes números não se aplica, uma vez que a integral que define a média não é finita).


Como o kjetil aponta corretamente nos comentários, se quisermos evitar que a taxa de convergência seja terrível (ou seja, poder usá-la na prática), precisamos de algum tipo de ligação com "quão longe" / "quão rapidamente" o a aproximação entra em ação. Não adianta ter uma aproximação adequada para (digamos) se quisermos algum uso prático a partir de uma aproximação normal.n>1010100

O teorema do limite central é sobre o destino, mas não nos diz nada sobre a rapidez com que chegamos lá; existem, no entanto, resultados como o teorema do teorema de Berry-Esseen que limitam a taxa (em um sentido particular). No caso de Berry-Esseen, ele limita a maior distância entre a função de distribuição da média padronizada e o cdf normal padrão em termos do terceiro momento absoluto ( ).E(|X|3)

Portanto, no caso de Pareto, se , podemos pelo menos entender como a aproximação pode ser ruim em alguns e com que rapidez estamos chegando lá. (Por outro lado, delimitar a diferença nos cdfs não é necessariamente algo especialmente "prático" a ser delimitado - o que você está interessado pode não se relacionar especialmente bem com o delimitação da diferença na área da cauda). No entanto, é algo (e, pelo menos em algumas situações, um limite de cdf é mais diretamente útil).α>3n

Glen_b -Reinstate Monica
fonte
2
Mas se a variância mal existe, ou seja, mas muito próxima, o teorema do limite central, embora aplicado em princípio, pode levar a aproximações muito ruins. Para ter algum controle sobre a qualidade da aproximação, você precisa de algo como o teorema de Berry-Esseen, que requer terceiros momentos, ou seja, . α > 3α>2α>3
precisa saber é o seguinte
@kjetil bastante; na prática, você precisa de mais do que apenas segundos momentos, porque a convergência pode ser inutilmente lenta.
Glen_b -Replica Monica
11
Sim, vou adicionar uma resposta para mostrar isso!
precisa saber é o seguinte
2
Algumas distribuições que não seguem o teorema do limite central podem ser padronizadas para convergir para uma lei estável.
Michael R. Chernick
Ótima discussão aqui. Desejo Stackexchange tinha um caminho a seguir das pessoas respostas / comentários;)
Chan-Ho Suh
9

Adicionarei uma resposta mostrando quão ruim a aproximação do teorema do limite central (CLT) pode ser para a distribuição de pareto, mesmo em um caso em que as suposições para o CLT sejam cumpridas. A suposição é que deve haver uma variação finita, o que para o pareto significa que . Para uma discussão mais teórica sobre o porquê disso, veja minha resposta aqui: Qual é a diferença entre variância finita e infinitaα>2

Simularei dados da distribuição de pareto com o parâmetro , para que a variação "apenas exista". Refaça minhas simulações com para ver a diferença! Aqui está um código R:α=2.1α=3.1

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

E aqui está o enredo:

pareto simulado significa histograma

Pode-se ver que, mesmo no tamanho da amostra , estamos longe da aproximação normal. O fato de as variações empíricas serem muito menores do que a verdadeira variação teórica deve-se ao fato de termos uma contribuição muito grande à variação de partes da distribuição na extremidade direita extrema que não aparecem na maioria das amostras. Isso é de se esperar sempre, quando a variação "apenas existe"n=10000σ2=1. Uma maneira prática de pensar sobre isso é o seguinte. Distribuições de Pareto são frequentemente propostas para modelar distribuições de renda (ou riqueza). A expectativa de renda (ou riqueza) terá uma contribuição muito grande dos poucos bilhões de dólares. Amostragens com tamanhos práticos de amostra terão uma probabilidade muito pequena de incluir bilhões de dólares na amostra!

kjetil b halvorsen
fonte
3

Eu já gostei de respostas, mas acho que há muita técnica para uma "explicação para leigos", então tentarei algo mais intuitivo (começando por uma equação ...).

A média da densidade é definida como: De maneira geral, a média é a "soma sobre " do produto entre a densidade em e . Quando tende ao infinito, a densidade em deve desaparecer o suficiente para que o produto não chegue ao infinito (e, como resultado, a soma também). Quando não desaparece suficientemente, o produto vai para o infinito, a integral vai para o infinito, não existe e, finalmente, não tem significado. É o caso de Pareto para certos valores de parâmetro.p

μ=xp(x)dx
xxxxp(x)xp(x)p(x)μp

Então, o teorema do limite central estabelece uma distribuição da distância entre a média empírica e a média em função da variação de e (assintoticamente com ). Vamos ver como a média empírica se comporta em função do número de para uma densidade gaussiana :x¯=1nixiμpnnx¯np

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

insira a descrição da imagem aqui

Essa é uma realização típica, a média da amostra converge para a média da densidade de maneira bastante apropriada (e em média da maneira dada pelo teorema do limite central). Vamos fazer o mesmo para uma distribuição de pareto sem média (substituindo rnorm (N, 1,1); pelo pareto (N, 1,1,1);)

insira a descrição da imagem aqui

Essa também é uma simulação típica; de tempos em tempos, a média da amostra se desvia fortemente, simplesmente porque, conforme explicado pela fórmula integral, no produto , a frequência de altos valores de não é pequena o suficiente para compensar o fato de que é alto. Portanto, a média não existe e a média da amostra não converge para nenhum valor típico, e o teorema do limite central não tem nada a dizer.p(x)xxx

Finalmente, observe que o teorema do limite central relaciona média empírica, média, tamanho da amostra e variância. Portanto, a variação também deve existir (consulte a resposta do kjetil b halvorsen para obter detalhes).( x - μ ) 2 p ( x ) d xn(xμ)2p(x)dx

peuhp
fonte