O papel da variância no Teorema do Limite Central

10

Li em algum lugar que a razão pela qual calculamos as diferenças em vez de assumir valores absolutos ao calcular a variação é que a variação definida da maneira usual, com quadrados no nomeador, desempenha um papel único no Teorema do Limite Central.

Bem, então qual é exatamente o papel da variação na CLT? Não consegui descobrir mais sobre isso nem entendi direito.

Também poderíamos perguntar o que nos faz pensar que a variação é uma medida de quão longe um conjunto de números está espalhado. Eu poderia definir outras quantidades, semelhantes à variância, e convencê-lo a medir a dispersão de números. Para que isso aconteça, você teria que indicar exatamente o que se entende por propagação de números, qual comportamento você espera da medida de propagação etc. Não há uma definição formal de propagação, portanto, podemos tratar a variação como a definição. No entanto, por algum motivo, a variação é considerada 'a melhor' medida de spread.

user4205580
fonte
Tentei especificamente responder a esta pergunta em stats.stackexchange.com/a/3904/919 .
whuber
1
Agora, lembro que já vi sua resposta antes, mas o problema é que não consigo realmente encontrar a palavra 'variação' na sua resposta. Qual parte explica exatamente o problema? Talvez eu devesse ler de novo.
User4205580
3
Procure por "SD", que é equivalente a variação, e ao termo "fator de escala". O ponto (bastante profundo) aqui é que a variação em si não é uma escolha única: para qualquer distribuição, você pode escolher (quase) qualquer medida de espalhamento que desejar! Assumindo que converge medida para a propagação da distribuição subjacente, o que realmente importa é que quando você padronizar a soma (ou média) de amostras iid de que a distribuição, você deve redimensionar sua propagação por um fator que asymptotically é . Ao fazer isso, você obterá uma distribuição normal limitadora. nn
whuber

Respostas:

8

A declaração clássica do teorema do limite central (CLT) considera uma sequência de variáveis independentes, distribuídas de forma idêntica aleatórios com distribuição comum . Essa sequência modela a situação que enfrentamos ao projetar um programa ou experimento de amostragem: se podemos obter observações independentes do mesmo fenômeno subjacente, a coleção finita modela os dados previstos. Permitir que a sequência seja infinita é uma maneira conveniente de considerar tamanhos de amostra arbitrariamente grandes.F n X 1 , X 2 , , X nX1,X2,,Xn,FnX1,X2,,Xn

Várias leis de grandes números afirmam que a média

m(X1,X2,,Xn)=1n(X1+X2++Xn)

abordará de perto a expectativa de , , com alta probabilidade, desde que realmente tenha uma expectativa. (Nem todas as distribuições fazem isso.) Isso implica no desvio (que, em função dessas variáveis ​​aleatórias, também é uma variável aleatória) tenderá a obter menor à medida que aumenta. A CLT contribui para isso de uma maneira muito mais específica: ele afirma (sob algumas condições, que discutirei adiante) que se redimensionar esse desvio por , terá uma função de distribuição que aborda alguns zero função de distribuição normal média comoFμ(F)Fm(X1,X2,,Xn)μ(F)nnnFnncresce grande. (Minha resposta em https://stats.stackexchange.com/a/3904 tenta explicar por que isso ocorre e por que o fator é o correto a ser usado.)n

Esta não é uma declaração padrão do CLT. Vamos conectá-lo com o habitual. Essa distribuição normal média com limitação zero será completamente determinada por um segundo parâmetro, que geralmente é escolhido para ser uma medida de sua propagação (naturalmente!), Como sua variação ou desvio padrão. Seja sua variação. Certamente ele deve ter alguma relação com uma propriedade semelhante de . Para descobrir o que pode ser isso, deixe ter uma variação que pode ser infinita, a propósito. Independentemente disso, como os são independentes, calculamos facilmente a variação dos meios:σ2FFτ2Xi

Var(m(X1,X2,,Xn))=Var(1n(X1+X2++Xn))=(1n)2(Var(X1)+Var(X2)++Var(Xn))=(1n)2(τ2+τ2++τ2)=τ2n.

Consequentemente, a variação dos resíduos padronizados é igual a : é constante. A variação da distribuição normal limitante, portanto, deve ser . (Isso mostra imediatamente que o teorema pode ser mantido apenas quando é finito: essa é a suposição adicional que eu examinei anteriormente.)τ2/n×(n)2=τ2τ2τ2

(Se tivéssemos escolhido qualquer outra medida de spread de , ainda poderíamos conectá-lo a , mas não teríamos descoberto que a medida correspondente de spread do desvio médio padronizado é constante para todos os , que é uma simplificação bonita - embora não essencial -.)Fσ2n

Se quiséssemos, poderíamos padronizar os desvios médios o tempo todo dividindo-os por e multiplicando-os por . Isso garantiria que a distribuição limitadora fosse normal normal, com variação unitária. Se você optar por padronizar por dessa maneira ou não, é realmente uma questão de gosto: é o mesmo teorema e a mesma conclusão no final. O que importava era a multiplicação por .τnτn

Observe que você pode multiplicar os desvios por algum fator diferente de . Você pode usar ou ou qualquer outra coisa que se comporte assintoticamente como . Qualquer outra forma assintótica, no limite, reduziria a ou explodiria a . Essa observação refina nossa apreciação do CLT, mostrando até que ponto ele é flexível com relação ao desempenho da padronização. Podemos querer indicar o CLT, então, da seguinte maneira.nn+exp(n)n1/2+1/nnσ20

Desde que o desvio entre a média de uma sequência de variáveis ​​IID (com distribuição comum ) e a expectativa subjacente seja escalado assintoticamente por , esse desvio escalado terá uma distribuição limitadora Normal com média zero cuja variação é a de .FnF

Embora as variações estão envolvidos na demonstração, eles aparecem apenas porque eles são necessários para caracterizar a distribuição normal limitante e relacionar a sua propagação ao da . Este é apenas um aspecto incidental. Não tem nada a ver com a variação ser "melhor" em qualquer sentido. O cerne da questão é o redimensionamento assintótico de .Fn

whuber
fonte
5

A variação NÃO é essencial para os Teoremas do Limite Central. É essencial para o iid do iniciante da variedade de jardins, o Teorema do Limite Central, aquele que a maioria das pessoas conhece e ama, usa e abusa.

Não existe "o" Teorema do Limite Central, existem muitos Teoremas do Limite Central:

O teorema do limite central do iniciante da variedade de jardins. Mesmo aqui, a escolha criteriosa da constante normativa (de modo que uma variante avançada do CLT do iniciante) pode permitir que os Teoremas do Limite Central sejam provados para certas variáveis ​​aleatórias com variação infinita (consulte Feller Vol. II http://www.amazon.com/Introduction -Probability-Theory-Applications-Edition / dp / 0471257095 p. 260).

Teorema do limite central de Lindeberg-Feller da matriz triangular. http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem .

O mundo selvagem de qualquer coisa leva tudo à vista, dependente dos Teoremas do Limite Central, para os quais a variação nem precisa existir. Certa vez, provei um Teorema do Limite Central, para o qual não apenas a variação não existia, mas também a média e, de fato, nem mesmo um momento de 1 epsilon para o epsilon arbitrariamente pequeno positivo. Essa foi uma prova cabeluda, porque "mal" convergiu e o fez muito lentamente. Assintoticamente, convergiu para um Normal; na realidade, seria necessário um tamanho de amostra de milhões de termos para que o Normal fosse uma boa aproximação.

Mark L. Stone
fonte
O CLT que você provou ser acessível em algum lugar da Web? Parece muito interessante e eu gostaria de ler.
Alecos Papadopoulos
2
Foi uma tarefa de casa em um curso de probabilidade teórica há quase 35 anos, perdido nos tempos da areia. Bem, pode estar em uma das minhas caixas em algum lugar, mas não vou desenterrá-lo tão cedo. Eu mal era inteligente o suficiente para provar isso (com muitas horas de trabalho árduo), nem inteligente o suficiente para formulá-lo. Existem infinitamente muitos Teoremas de Limite Central diferentes, a norma é a chave.
Mark L. Stone
1

Qual é a melhor medida de spread depende da situação. Variância é uma medida de spread que é um parâmetro da distribuição normal. Portanto, se você modelar seus dados com uma distribuição nornal, a média (aritmética) e a variação empírica são os melhores estimadores (eles são "suficientes") dos parâmetros dessa distribuição normal. Isso também fornece o link para o teorema do limite central, uma vez que esse é um limite normal, ou seja, o limite é uma distribuição normal. Portanto, se você tem observações suficientes de que o teorema do limite central é relevante, novamente você pode usar a distribuição normal, e a variação empírica é a descrição natural da variabilidade, porque está ligada à distribuição normal.

Sem esse vínculo com a distribuição normal, não há sentido em que a variação seja melhor ou mesmo um descritor natural de variabilidade.

kjetil b halvorsen
fonte
Não está claro por que a teoria dos "melhores" estimadores (em qualquer sentido de "melhor") deve ter alguma conexão com o teorema do limite central. Se alguém usar uma função de perda não quadrática, por exemplo, média e variância podem não ser os "melhores" estimadores dos parâmetros de uma distribuição normal - em vez disso, a mediana e o IQR podem ser melhores.
whuber
1

Abordando apenas a segunda pergunta:

Eu acho que a variância tem sido a medida de dispersão de escolha para a maioria dos estatísticos, principalmente por razões históricas e, em seguida, devido à inércia para a maioria dos praticantes não estatísticos.

Embora eu não possa citar de cor uma referência específica com uma definição rigorosa de propagação, posso oferecer heurística para sua caracterização matemática: momentos centrais (ie, ) são muito úteis para ponderar desvios do centro de distribuição e suas probabilidades / frequências, mas apenas se for inteiro e par.E[(Xμ)k]k

Por quê? Como assim, os desvios abaixo do centro (negativo) serão somados com os desvios acima do centro (positivo), em vez de cancelá-los parcialmente, como a média, por exemplo. Como você pode pensar, momentos centrais absolutos (ou seja, ) também podem fazer esse trabalho e, mais ainda, para qualquer (ok, ambos os momentos são iguais se for par).E(|Xμ|k)k>0k

Portanto, uma grande quantidade de pequenos desvios (positivos e negativos) com poucos desvios grandes são características de pouca dispersão, o que produzirá um momento central relativamente pequeno. Muitos desvios grandes produzirão um momento central relativamente grande.

Lembra quando eu disse sobre as razões históricas acima? Antes que o poder computacional se tornasse barato e disponível, era necessário confiar apenas em habilidades matemáticas e analíticas para lidar com o desenvolvimento de teorias estatísticas.

Problemas envolvendo momentos centrais eram mais fáceis de resolver do que problemas envolvendo momentos centrais absolutos. Por exemplo, problemas de otimização envolvendo momentos centrais (por exemplo, mínimos quadrados) requerem apenas cálculo, enquanto otimização envolvendo momentos centrais absolutos com ímpar (para você obtém um problema simplex), que não pode ser resolvido apenas com cálculo.k = 1kk=1

Marcelo Ventura
fonte