O que exatamente são momentos? Como eles são derivados?

19

Normalmente, somos apresentados ao método de estimadores de momentos "equiparando os momentos da população à sua amostra" até estimarmos todos os parâmetros da população; de modo que, no caso de uma distribuição normal, precisaríamos apenas do primeiro e do segundo momento, porque eles descrevem completamente essa distribuição.

E(X)=μi=1nXi/n=X¯

E(X2)=μ2+σ2i=1nXi2/n

E poderíamos, teoricamente, computar até momentos adicionais como:n

E(Xr)i=1nXir/n

Como posso criar intuição para quais momentos realmente são? Eu sei que eles existem como um conceito em física e em matemática, mas não acho que seja diretamente aplicável, principalmente porque não sei como fazer a abstração do conceito de massa para um ponto de dados. O termo parece ser usado de maneira específica em estatística, que difere do uso em outras disciplinas.

Que característica dos meus dados determina quantos ( ) momentos existem no geral?r

Constantin
fonte
7
O termo significa o mesmo que na física, quando aplicado à distribuição de probabilidade. Veja aqui , que tem a equação , " onde é a distribuição da densidade de carga, massa ou qualquer quantidade que esteja sendo considerada ". Quando a "coisa que está sendo considerada" é a densidade de probabilidade, você tem o momento correspondente em probabilidade. São momentos cruas (momentos sobre a origem). Por comparação ... (ctd)μn=rnρ(r)drρ
Glen_b -Replica Monica
2
Momentos são características parametrizadas da distribuição de variáveis ​​aleatórias, como quantis. Os momentos são parametrizados pelos números naturais e caracterizam completamente uma distribuição (consulte a função de geração de momentos ). Isso não exclui que, para algumas distribuições, possa haver perfeita dependência funcional entre os momentos; portanto, nem todos os momentos são sempre necessários para caracterizar a distribuição. (1/2)
tchakravarty
Momentos são funcionalmente dependentes dos dois primeiros para a distribuição normal; portanto, os dois primeiros são suficientes para caracterizar a distribuição, incluindo a média e a variância. (2/2)3
tchakravarty
5
(ctd) ... momentos em matemática são os mesmos ( ), exceto cerca de c em vez de 0 (ou seja, apenas uma forma generalizada da física - mas como são iguais com uma mera mudança de origem, um físico diria com razão "como isso é diferente?"). São osmesmosque em probabilidade, quando f é uma densidade. Para mim, os três estão falando da mesma coisa quando dizem 'momentos', não coisas diferentes. μn=-(x-c)nf(x)dxcf
Glen_b -Reinstala Monica
3
Tenho certeza de que você pode encontrar respostas nos muitos tópicos que foram publicados sobre momentos e intuição . A estatística usa momentos exatamente da mesma maneira que são usados ​​em física e matemática - é o mesmo conceito com a mesma definição nos três campos.
whuber

Respostas:

17

Faz muito tempo desde que fiz uma aula de física, então me informe se algo está incorreto.

Descrição geral de momentos com análogos físicos

Dê uma variável aleatória, . O n- ésimo momento de X em torno de c é: m n ( c ) = E [ ( X - c ) n ] Isso corresponde exatamente ao sentido físico de um momento. Imagine X como uma coleção de pontos ao longo da linha real com a densidade fornecida pelo pdf. Coloque um ponto de apoio sob esta linha em ce comece a calcular os momentos relativos a esse ponto de apoio, e os cálculos corresponderão exatamente aos momentos estatísticos.XnXc

mn(c)=E[(X-c)n]
Xc

A maior parte do tempo, o momento -ésimo de X refere-se ao momento em torno de 0 (momentos em que o ponto de apoio é colocado em 0): m n = E [ X n ] O n -simo centro momento de X é: m N = m n ( m 1 ) = E [ ( X - m 1 ) n ]nX

mn=E[Xn]
nX
m^n=mn(m1)=E[(X-m1)n]
Isso corresponde a momentos em que o ponto de apoio é colocado no centro de massa, para que a distribuição seja equilibrada. Permite que os momentos sejam mais facilmente interpretados, como veremos abaixo. O primeiro momento central será sempre zero, porque a distribuição é equilibrada.

O -simo padronizado momento de X é: ~ m n = m nnX Novamente, isso escala momentos pela disseminação da distribuição, permitindo uma interpretação mais fácil especificamente da curtose. O primeiro momento padronizado será sempre zero, o segundo sempre será um. Isso corresponde ao momento do escore padrão (escore z) de uma variável. Eu não tenho um ótimo analógico físico para esse conceito.

m~n=m^n(m^2)n=E[(X-m1)n](E[(X-m1)2])n

Momentos comumente usados

Para qualquer distribuição, há potencialmente um número infinito de momentos. Momentos suficientes quase sempre caracterizam e distribuem totalmente (derivar as condições necessárias para que isso seja certo faz parte do problema do momento ). Em geral, são discutidos quatro momentos em estatísticas:

  1. Média - o primeiro momento (centrado em torno de zero). É o centro de massa da distribuição ou, alternativamente, é proporcional ao momento de torque da distribuição em relação a um ponto de apoio em 0.
  2. X
  3. Skewness - o terceiro momento central (às vezes padronizado). Uma medida da inclinação de uma distribuição em uma direção ou outra. Em relação a uma distribuição normal (que não tem inclinação), a distribuição inclinada positivamente tem uma baixa probabilidade de resultados extremamente altos, as distribuições inclinadas negativamente têm uma pequena probabilidade de resultados extremamente baixos. Análogos físicos são difíceis, mas medem livremente a assimetria de uma distribuição. Como exemplo, a figura abaixo é retirada da Wikipedia . Skewness, retirado da Wikipedia
  4. XCurtose, também da WIkipedia

Raramente falamos de momentos além da curtose, precisamente porque há muito pouca intuição neles. Isso é semelhante aos físicos que param após o segundo momento.

jayk
fonte
6

Este é um tópico antigo, mas desejo corrigir uma distorção no comentário de Fg Nu, que escreveu "Os momentos são parametrizados pelos números naturais e caracterizam completamente uma distribuição".

Momentos NÃO caracterizam completamente uma distribuição. Especificamente, o conhecimento de todo o número infinito de momentos, mesmo que existam, não determina necessariamente exclusivamente a distribuição.

De acordo com meu livro de probabilidades favorito, Feller "Uma Introdução à Teoria das Probabilidades e Suas Aplicações Vol. II" (veja minha resposta em exemplos da vida real de distribuições comuns ), seção VII.3 exemplo nas páginas 227-228, o Lognormal não é determinado por seus momentos, significando que existem outras distribuições com todo número infinito de momentos iguais às Lognormal, mas com funções de distribuição diferentes. Como é amplamente conhecido, a Função Geradora de Momentos não existe para o Lognormal, nem para essas outras distribuições que possuem os mesmos momentos.

X

n=1(E[X2n])-1/(2n)

diverge. Observe que este não é um se e somente se. Essa condição não se aplica ao Lognormal e, de fato, não é determinada por seus momentos.

Por outro lado, as distribuições (variáveis ​​aleatórias) que compartilham todo o número infinito de momentos, só podem diferir muito, devido às desigualdades que podem ser derivadas de seus momentos.

Mark L. Stone
fonte
Isso é consideravelmente simplificado quando a distribuição é limitada; nesse caso, os momentos sempre determinam a distribuição completamente (exclusivamente).
Alex R.
@ Alex Essa é uma consequência imediata do resultado citado em Feller.
whuber
Não é completamente correto dizer que a função de geração de momento não existe para o lognormal. Os teoremas mais úteis sobre mgf's assumem que ele existe em um intervalo aberto contendo zero e, no sentido estrito, ele não existe. Mas existe em um raio que emana de zero !, e que também fornece informações úteis.
Kjetil b halvorsen
@ kjetil b halvorsen, você pode descrever (algumas das) informações úteis que você obteria da existência do MGF de um lognormal em um raio que emana de zero? Que raio seria esse?
Mark L. Stone
Colisão de comentário acima como questão a @kjetil b Halvorsen ..
Mark L. Stone
2

Um corolário das observações de Glen_b é que o primeiro momento, a média, corresponde ao centro de gravidade de um objeto físico, e o segundo momento em torno da média, a variação, corresponde ao seu momento de inércia. Depois disso, você estará por sua conta.

Mike Anderson
fonte
3
E[x2]=x2f(x)dx vumar[x]=E[(x-E[x])2]=(x-E[x])2f(x)dx
0

Uma árvore binomial tem dois ramos, cada um provavelmente com 0,5. Na verdade, p = 0,5 eq = 1-0,5 = 0,5. Isso gera uma distribuição normal com uma massa de probabilidade distribuída uniformemente.

Na verdade, temos que assumir que cada camada da árvore está completa. Quando dividimos os dados em compartimentos, obtemos um número real da divisão, mas arredondamos. Bem, essa é uma camada incompleta, por isso não terminamos com um histograma aproximando-se do normal.

Altere as probabilidades de ramificação para p = 0,9999 eq = 0,0001 e isso nos leva a um normal distorcido. A massa de probabilidade mudou. Isso explica a assimetria.

Ter camadas ou posições incompletas menores que 2 ^ n gera árvores binomiais com áreas que não têm massa de probabilidade. Isso nos dá curtose.


Resposta ao comentário:

Quando eu estava falando sobre determinar o número de posições, arredondar para o próximo número inteiro.

Máquinas Quincunx soltam bolas que chegam a aproximar-se da distribuição normal via binomial. Várias suposições são feitas por essa máquina: 1) o número de posições é finito, 2) a árvore subjacente é binária e 3) as probabilidades são fixas. A máquina Quincunx no Museu de Matemática de Nova York permite que o usuário altere dinamicamente as probabilidades. As probabilidades podem mudar a qualquer momento, mesmo antes do término da camada atual. Portanto, essa idéia sobre as caixas não serem preenchidas.

Diferentemente do que eu disse na minha resposta original quando você tem um vazio na árvore, a distribuição demonstra curtose.

Estou olhando para isso da perspectiva de sistemas generativos. Eu uso um triângulo para resumir as árvores de decisão. Quando uma nova decisão é tomada, mais caixas são adicionadas na base do triângulo e, em termos de distribuição, nas caudas. Aparar subárvores da árvore deixaria vazios na massa de probabilidade da distribuição.

Eu apenas respondi para lhe dar um senso intuitivo. Etiquetas? Eu usei o Excel e brinquei com as probabilidades no binômio e gerou os desvios esperados. Eu não fiz isso com a curtose, não ajuda que somos forçados a pensar na massa de probabilidade como sendo estática enquanto usamos a linguagem que sugere movimento. Os dados ou bolas subjacentes causam a curtose. Em seguida, analisamos-o de várias formas e atribuímo-lo à forma de termos descritivos como centro, ombro e cauda. As únicas coisas com as quais temos que trabalhar são as caixas. Os compartimentos vivem vidas dinâmicas, mesmo que os dados não possam.

David Locke
fonte
2
Isso é intrigante, mas muito superficial. Quais são os rótulos na sua árvore binomial, por exemplo? É melhor que seja uma árvore infinita se você deseja obter uma distribuição normal - mas os rótulos óbvios (usando uma caminhada aleatória ou usando representações binárias de números reais) não levam a distribuições normais. Sem esses detalhes, resta muito à imaginação dos leitores. Você poderia elaborar sobre eles?
whuber