Alguém pode fornecer uma explicação simples (leiga) da relação entre as distribuições de Pareto e o Teorema do Limite Central (por exemplo, aplica-se? Por que / por que não?)? Estou tentando entender a seguinte declaração:
Alguém pode fornecer uma explicação simples (leiga) da relação entre as distribuições de Pareto e o Teorema do Limite Central (por exemplo, aplica-se? Por que / por que não?)? Estou tentando entender a seguinte declaração:
A afirmação não é verdadeira em geral - a distribuição de Pareto tem uma média finita se seu parâmetro de forma ( no link) for maior que 1.
Quando existem a média e a variância ( ), as formas usuais do teorema do limite central - por exemplo, clássica, Lyapunov, Lindeberg serão aplicadas
Veja a descrição do teorema clássico do limite central aqui
A citação é meio estranha, porque o teorema do limite central (em qualquer uma das formas mencionadas) não se aplica à média da amostra em si, mas a uma média padronizada (e se tentarmos aplicá-la a algo cuja média e variância sejam não finito, precisaríamos explicar com muito cuidado o que realmente estamos falando, já que o numerador e o denominador envolvem coisas que não têm limites finitos).
No entanto (apesar de não ser corretamente expresso por falar sobre teoremas do limite central), ele tem um ponto subjacente - a média da amostra não convergirá para a média da população (a lei fraca de grandes números não se aplica, uma vez que a integral que define a média não é finita).
Como o kjetil aponta corretamente nos comentários, se quisermos evitar que a taxa de convergência seja terrível (ou seja, poder usá-la na prática), precisamos de algum tipo de ligação com "quão longe" / "quão rapidamente" o a aproximação entra em ação. Não adianta ter uma aproximação adequada para (digamos) se quisermos algum uso prático a partir de uma aproximação normal.
O teorema do limite central é sobre o destino, mas não nos diz nada sobre a rapidez com que chegamos lá; existem, no entanto, resultados como o teorema do teorema de Berry-Esseen que limitam a taxa (em um sentido particular). No caso de Berry-Esseen, ele limita a maior distância entre a função de distribuição da média padronizada e o cdf normal padrão em termos do terceiro momento absoluto ( ).
Portanto, no caso de Pareto, se , podemos pelo menos entender como a aproximação pode ser ruim em alguns e com que rapidez estamos chegando lá. (Por outro lado, delimitar a diferença nos cdfs não é necessariamente algo especialmente "prático" a ser delimitado - o que você está interessado pode não se relacionar especialmente bem com o delimitação da diferença na área da cauda). No entanto, é algo (e, pelo menos em algumas situações, um limite de cdf é mais diretamente útil).
Adicionarei uma resposta mostrando quão ruim a aproximação do teorema do limite central (CLT) pode ser para a distribuição de pareto, mesmo em um caso em que as suposições para o CLT sejam cumpridas. A suposição é que deve haver uma variação finita, o que para o pareto significa que . Para uma discussão mais teórica sobre o porquê disso, veja minha resposta aqui: Qual é a diferença entre variância finita e infinitaα>2
Simularei dados da distribuição de pareto com o parâmetro , para que a variação "apenas exista". Refaça minhas simulações com para ver a diferença! Aqui está um código R:α=2.1 α=3.1
E aqui está o enredo:
Pode-se ver que, mesmo no tamanho da amostra , estamos longe da aproximação normal. O fato de as variações empíricas serem muito menores do que a verdadeira variação teórica deve-se ao fato de termos uma contribuição muito grande à variação de partes da distribuição na extremidade direita extrema que não aparecem na maioria das amostras. Isso é de se esperar sempre, quando a variação "apenas existe"n=10000 σ2=1 . Uma maneira prática de pensar sobre isso é o seguinte. Distribuições de Pareto são frequentemente propostas para modelar distribuições de renda (ou riqueza). A expectativa de renda (ou riqueza) terá uma contribuição muito grande dos poucos bilhões de dólares. Amostragens com tamanhos práticos de amostra terão uma probabilidade muito pequena de incluir bilhões de dólares na amostra!
fonte
Eu já gostei de respostas, mas acho que há muita técnica para uma "explicação para leigos", então tentarei algo mais intuitivo (começando por uma equação ...).
A média da densidade é definida como: De maneira geral, a média é a "soma sobre " do produto entre a densidade em e . Quando tende ao infinito, a densidade em deve desaparecer o suficiente para que o produto não chegue ao infinito (e, como resultado, a soma também). Quando não desaparece suficientemente, o produto vai para o infinito, a integral vai para o infinito, não existe e, finalmente, não tem significado. É o caso de Pareto para certos valores de parâmetro.p
Então, o teorema do limite central estabelece uma distribuição da distância entre a média empírica e a média em função da variação de e (assintoticamente com ). Vamos ver como a média empírica se comporta em função do número de para uma densidade gaussiana :x¯=1n∑ixi μ p n n x¯ n p
Essa é uma realização típica, a média da amostra converge para a média da densidade de maneira bastante apropriada (e em média da maneira dada pelo teorema do limite central). Vamos fazer o mesmo para uma distribuição de pareto sem média (substituindo rnorm (N, 1,1); pelo pareto (N, 1,1,1);)
Essa também é uma simulação típica; de tempos em tempos, a média da amostra se desvia fortemente, simplesmente porque, conforme explicado pela fórmula integral, no produto , a frequência de altos valores de não é pequena o suficiente para compensar o fato de que é alto. Portanto, a média não existe e a média da amostra não converge para nenhum valor típico, e o teorema do limite central não tem nada a dizer.p(x)⋅x x x
Finalmente, observe que o teorema do limite central relaciona média empírica, média, tamanho da amostra e variância. Portanto, a variação também deve existir (consulte a resposta do kjetil b halvorsen para obter detalhes).∫ ( x - μ ) 2 p ( x ) d xn ∫(x−μ)2p(x)dx
fonte