Li em algum lugar que a razão pela qual calculamos as diferenças em vez de assumir valores absolutos ao calcular a variação é que a variação definida da maneira usual, com quadrados no nomeador, desempenha um papel único no Teorema do Limite Central.
Bem, então qual é exatamente o papel da variação na CLT? Não consegui descobrir mais sobre isso nem entendi direito.
Também poderíamos perguntar o que nos faz pensar que a variação é uma medida de quão longe um conjunto de números está espalhado. Eu poderia definir outras quantidades, semelhantes à variância, e convencê-lo a medir a dispersão de números. Para que isso aconteça, você teria que indicar exatamente o que se entende por propagação de números, qual comportamento você espera da medida de propagação etc. Não há uma definição formal de propagação, portanto, podemos tratar a variação como a definição. No entanto, por algum motivo, a variação é considerada 'a melhor' medida de spread.
fonte
Respostas:
A declaração clássica do teorema do limite central (CLT) considera uma sequência de variáveis independentes, distribuídas de forma idêntica aleatórios com distribuição comum . Essa sequência modela a situação que enfrentamos ao projetar um programa ou experimento de amostragem: se podemos obter observações independentes do mesmo fenômeno subjacente, a coleção finita modela os dados previstos. Permitir que a sequência seja infinita é uma maneira conveniente de considerar tamanhos de amostra arbitrariamente grandes.F n X 1 , X 2 , … , X nX1, X2, … , Xn, … F n X1, X2, … , Xn
Várias leis de grandes números afirmam que a média
abordará de perto a expectativa de , , com alta probabilidade, desde que realmente tenha uma expectativa. (Nem todas as distribuições fazem isso.) Isso implica no desvio (que, em função dessas variáveis aleatórias, também é uma variável aleatória) tenderá a obter menor à medida que aumenta. A CLT contribui para isso de uma maneira muito mais específica: ele afirma (sob algumas condições, que discutirei adiante) que se redimensionar esse desvio por , terá uma função de distribuição que aborda alguns zero função de distribuição normal média comoF μ(F) F m(X1,X2,…,Xn)−μ(F) n n n−−√ Fn n cresce grande. (Minha resposta em https://stats.stackexchange.com/a/3904 tenta explicar por que isso ocorre e por que o fator é o correto a ser usado.)n−−√
Esta não é uma declaração padrão do CLT. Vamos conectá-lo com o habitual. Essa distribuição normal média com limitação zero será completamente determinada por um segundo parâmetro, que geralmente é escolhido para ser uma medida de sua propagação (naturalmente!), Como sua variação ou desvio padrão. Seja sua variação. Certamente ele deve ter alguma relação com uma propriedade semelhante de . Para descobrir o que pode ser isso, deixe ter uma variação que pode ser infinita, a propósito. Independentemente disso, como os são independentes, calculamos facilmente a variação dos meios:σ2 F F τ2 Xi
Consequentemente, a variação dos resíduos padronizados é igual a : é constante. A variação da distribuição normal limitante, portanto, deve ser . (Isso mostra imediatamente que o teorema pode ser mantido apenas quando é finito: essa é a suposição adicional que eu examinei anteriormente.)τ2/n×(n−−√)2=τ2 τ2 τ2
(Se tivéssemos escolhido qualquer outra medida de spread de , ainda poderíamos conectá-lo a , mas não teríamos descoberto que a medida correspondente de spread do desvio médio padronizado é constante para todos os , que é uma simplificação bonita - embora não essencial -.)F σ2 n
Se quiséssemos, poderíamos padronizar os desvios médios o tempo todo dividindo-os por e multiplicando-os por . Isso garantiria que a distribuição limitadora fosse normal normal, com variação unitária. Se você optar por padronizar por dessa maneira ou não, é realmente uma questão de gosto: é o mesmo teorema e a mesma conclusão no final. O que importava era a multiplicação por .τ n−−√ τ n−−√
Observe que você pode multiplicar os desvios por algum fator diferente de . Você pode usar ou ou qualquer outra coisa que se comporte assintoticamente como . Qualquer outra forma assintótica, no limite, reduziria a ou explodiria a . Essa observação refina nossa apreciação do CLT, mostrando até que ponto ele é flexível com relação ao desempenho da padronização. Podemos querer indicar o CLT, então, da seguinte maneira.n−−√ n−−√+exp(−n) n1/2+1/n n−−√ σ2 0 ∞
Embora as variações estão envolvidos na demonstração, eles aparecem apenas porque eles são necessários para caracterizar a distribuição normal limitante e relacionar a sua propagação ao da . Este é apenas um aspecto incidental. Não tem nada a ver com a variação ser "melhor" em qualquer sentido. O cerne da questão é o redimensionamento assintótico de .F n−−√
fonte
A variação NÃO é essencial para os Teoremas do Limite Central. É essencial para o iid do iniciante da variedade de jardins, o Teorema do Limite Central, aquele que a maioria das pessoas conhece e ama, usa e abusa.
Não existe "o" Teorema do Limite Central, existem muitos Teoremas do Limite Central:
O teorema do limite central do iniciante da variedade de jardins. Mesmo aqui, a escolha criteriosa da constante normativa (de modo que uma variante avançada do CLT do iniciante) pode permitir que os Teoremas do Limite Central sejam provados para certas variáveis aleatórias com variação infinita (consulte Feller Vol. II http://www.amazon.com/Introduction -Probability-Theory-Applications-Edition / dp / 0471257095 p. 260).
Teorema do limite central de Lindeberg-Feller da matriz triangular. http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem .
O mundo selvagem de qualquer coisa leva tudo à vista, dependente dos Teoremas do Limite Central, para os quais a variação nem precisa existir. Certa vez, provei um Teorema do Limite Central, para o qual não apenas a variação não existia, mas também a média e, de fato, nem mesmo um momento de 1 epsilon para o epsilon arbitrariamente pequeno positivo. Essa foi uma prova cabeluda, porque "mal" convergiu e o fez muito lentamente. Assintoticamente, convergiu para um Normal; na realidade, seria necessário um tamanho de amostra de milhões de termos para que o Normal fosse uma boa aproximação.
fonte
Qual é a melhor medida de spread depende da situação. Variância é uma medida de spread que é um parâmetro da distribuição normal. Portanto, se você modelar seus dados com uma distribuição nornal, a média (aritmética) e a variação empírica são os melhores estimadores (eles são "suficientes") dos parâmetros dessa distribuição normal. Isso também fornece o link para o teorema do limite central, uma vez que esse é um limite normal, ou seja, o limite é uma distribuição normal. Portanto, se você tem observações suficientes de que o teorema do limite central é relevante, novamente você pode usar a distribuição normal, e a variação empírica é a descrição natural da variabilidade, porque está ligada à distribuição normal.
Sem esse vínculo com a distribuição normal, não há sentido em que a variação seja melhor ou mesmo um descritor natural de variabilidade.
fonte
Abordando apenas a segunda pergunta:
Eu acho que a variância tem sido a medida de dispersão de escolha para a maioria dos estatísticos, principalmente por razões históricas e, em seguida, devido à inércia para a maioria dos praticantes não estatísticos.
Embora eu não possa citar de cor uma referência específica com uma definição rigorosa de propagação, posso oferecer heurística para sua caracterização matemática: momentos centrais (ie, ) são muito úteis para ponderar desvios do centro de distribuição e suas probabilidades / frequências, mas apenas se for inteiro e par.E[(X−μ)k] k
Por quê? Como assim, os desvios abaixo do centro (negativo) serão somados com os desvios acima do centro (positivo), em vez de cancelá-los parcialmente, como a média, por exemplo. Como você pode pensar, momentos centrais absolutos (ou seja, ) também podem fazer esse trabalho e, mais ainda, para qualquer (ok, ambos os momentos são iguais se for par).E(|X−μ|k) k>0 k
Portanto, uma grande quantidade de pequenos desvios (positivos e negativos) com poucos desvios grandes são características de pouca dispersão, o que produzirá um momento central relativamente pequeno. Muitos desvios grandes produzirão um momento central relativamente grande.
Lembra quando eu disse sobre as razões históricas acima? Antes que o poder computacional se tornasse barato e disponível, era necessário confiar apenas em habilidades matemáticas e analíticas para lidar com o desenvolvimento de teorias estatísticas.
Problemas envolvendo momentos centrais eram mais fáceis de resolver do que problemas envolvendo momentos centrais absolutos. Por exemplo, problemas de otimização envolvendo momentos centrais (por exemplo, mínimos quadrados) requerem apenas cálculo, enquanto otimização envolvendo momentos centrais absolutos com ímpar (para você obtém um problema simplex), que não pode ser resolvido apenas com cálculo.k = 1k k=1
fonte