Qual é a diferença intuitiva entre uma variável aleatória convergindo em probabilidade versus uma variável aleatória convergindo em distribuição?
Eu li várias definições e equações matemáticas, mas isso realmente não ajuda. (Lembre-se de que sou estudante de graduação em economia).
Como uma variável aleatória pode convergir para um único número, mas também para uma distribuição?
distributions
random-variable
convergence
intuition
nicefella
fonte
fonte
Respostas:
Digamos que você tenha bolas na caixa. Você pode escolhê-los um por um. Depois de escolher bolas, pergunto: qual é o peso médio das bolas na caixa? Sua melhor resposta seria . Você percebe que si é o valor aleatório? Depende de quais bolas você escolheu primeiro.k ˉ x k = 1N k ˉ x kkx¯k=1k∑ki=1xi x¯k k
Agora, se você continuar puxando as bolas, em algum momento não haverá mais bolas na caixa e você receberá .x¯N≡μ
Então, o que temos é a sequência aleatória que converge para a constante . Portanto, a chave para entender seu problema com convergência em probabilidade é perceber que estamos falando de uma sequência de variáveis aleatórias, construídas de uma certa maneira . ˉ x N=μ
A seguir, vamos obter números aleatórios uniformes , onde . Vejamos a sequência aleatória , em que . O é um valor aleatório, porque todos os seus termos são valores aleatórios. Não podemos prever o que será . Entretanto, podemos afirmar que as distribuições de probabilidade de se parecerão cada vez mais com o padrão normal . É assim que as distribuições convergem.e i ∈ [ 0 , 1 ] ξ 1 , Ç 2e1,e2,… ei∈[0,1] ξ k = 1ξ1,ξ2,… ξkξkξkN(0,1)ξk=1k12√∑ki=1(ei−12) ξk ξk ξk N(0,1)
fonte
Não está claro quanta intuição um leitor dessa pergunta pode ter sobre a convergência de qualquer coisa, muito menos de variáveis aleatórias; portanto, escreverei como se a resposta fosse "muito pequena". Algo que pode ajudar: em vez de pensar "como uma variável aleatória pode convergir", pergunte como uma sequência de variáveis aleatórias pode convergir. Em outras palavras, não é apenas uma variável única, mas uma (infinitamente longa!) Lista de variáveis, e as mais adiante na lista estão cada vez mais perto de ... alguma coisa. Talvez um número único, talvez uma distribuição inteira. Para desenvolver uma intuição, precisamos descobrir o que significa "cada vez mais perto". A razão pela qual existem tantos modos de convergência para variáveis aleatórias é que existem vários tipos de "
Primeiro vamos recapitular a convergência de sequências de números reais. Em , podemos usar a distância euclidianapara medir o quão perto está de . Considere . Então a sequência começa e afirmo que converge para . Claramente está se aproximando de , mas também é verdade que está se aproximando de| x - y | x yR |x−y| x y x1,xn=n+1n=1+1n 2 , 3x1,x2,x3,… xn1xn1xn0,90,50,910,90,050,9x20=1,050,0510,052,32,43,54,65,… xn 1 xn 1 xn 0.9 . Por exemplo, a partir do terceiro termo, os termos na sequência estão a uma distância de ou menos de . O que importa é que eles estão chegando arbitrariamente perto de , mas não de . Não há termos na seqüência já vêm dentro de , e muito menos estadia tão perto para termos subseqüentes. Por outro lado, também é de , e todos os termos subsequentes estão dentro de de , como mostrado abaixo.0.5 0.9 1 0.9 0.05 0.9 x20=1.05 0.05 1 0.05 1
Eu poderia ser mais rigoroso e exigir que os termos obtenham e permaneçam dentro de de e, neste exemplo, acho que isso é verdade para os termos e seguintes. Além disso, eu poderia escolher qualquer limite fixo de proximidade , não importa quão rigoroso (exceto , ou seja, o termo realmente sendo ) e, eventualmente, a condição será satisfeito para todos os termos além de um determinado termo (simbolicamente: para , onde o valor de depende de quão rigoroso um1 N = 1000 ϵ ϵ = 0 1 | x n - x | < Ε n > N N ε x n = 1 +0.001 1 N=1000 ϵ ϵ=0 1 |xn−x|<ϵ n>N N ϵ Eu escolhi). Para exemplos mais sofisticados, observe que não estou necessariamente interessado na primeira vez que a condição é atendida - o próximo termo pode não obedecer à condição, e isso é bom, desde que eu possa encontrar um termo mais adiante na sequência para a qual a condição é atendida e permanece atendida para todos os termos posteriores. isso para , que também converge para , com sombreado novamente. 1xn=1+sin(n)n 1 ϵ=0.05
Agora considere e a sequência de variáveis aleatórias . Esta é uma sequência de RVs com , , e assim por diante. Em que sentidos podemos dizer que isso está se aproximando do próprio ?X n =X∼U(0,1) X1=2XXn=(1+1n)X X1=2X X2=32X X3=43X X
Como e são distribuições, não apenas números únicos, a condição agora é um evento : mesmo para um fixo e isso pode ou não ocorrer . Considerando a probabilidade de ser atingido, gera convergência em probabilidade . Para , queremos a probabilidade complementar - intuitivamente, a probabilidade de que seja um pouco diferente (pelo menos ) de - para arbitrariamente pequeno, por tamanho suficientemente grande X | X n - X | < ϵ n ϵ X n p → X P ( | X n - X | ≥ ϵ ) X n ϵ X n ϵ P ( | X 1 - X | ≥ ϵ ) P ( | X 2 - X | ≥ ϵ ) P ( | XXn X |Xn−X|<ϵ n ϵ Xn→pX P(|Xn−X|≥ϵ) Xn ϵ X n . Para um fixo, isso gera toda uma sequência de probabilidades , , , , e se esta sequência de probabilidades converge para zero (como acontece no nosso exemplo), então dizemos converge em probabilidade para . Observe que os limites de probabilidade geralmente são constantes: por exemplo, em regressões em econometria, vemos medida que aumentamos o tamanho da amostra . Mas aquiϵ P(|X1−X|≥ϵ) P(|X2−X|≥ϵ) ... X n X Plim ( β ) = β n Plim ( X n ) = X ~ L ( 0 , 1 ) X n X X n X ε nP(|X3−X|≥ϵ) … Xn X plim(β^)=β n plim(Xn)=X∼U(0,1) . Efetivamente, convergência em probabilidade significa que é improvável que e muito em uma realização específica - e eu posso fazer com que a probabilidade de e esteja além de tão pequena quanto eu queira, desde que eu escolha um suficientemente grande .Xn X Xn X ϵ n
Um sentido diferente em que se aproxima de é que suas distribuições se parecem cada vez mais. Eu posso medir isso comparando seus CDFs. Em particular, escolha alguns nos quais é contínuo (no nosso exemplo para que seu CDF seja contínuo em todos os lugares e qualquer fará) e avalie o CDFs da sequência de s lá. Isso produz outra sequência de probabilidades, , , , e essa sequência converge para . As CDFs avaliadas emXn X x FX(x)=P(X≤x) X∼U(0,1) x Xn P(X1≤x) P(X2≤x) P(X3≤x) … P(X≤x) x para cada um dos fica arbitrariamente próximo ao CDF de avaliado em . Se esse resultado for verdadeiro, independentemente de qual escolhemos, converge para na distribuição . Acontece que isso acontece aqui, e nós não deve ser surpreendido desde a convergência na probabilidade de implica convergência na distribuição de . Observe que não pode ser o caso de convergir em probabilidade para uma distribuição não degenerada específica, mas convergir em distribuição para uma constante.Xn X x x Xn X X X Xn (Qual foi possivelmente o ponto de confusão na pergunta original? Mas observe um esclarecimento posteriormente.)
Para um exemplo diferente, deixe . Agora temos uma sequência de RVs, , , , e é claro que a distribuição de probabilidade está degenerando para um pico em . Agora considere a distribuição degenerada , com a qual quero dizer . É fácil ver que, para qualquer , a sequência converge para zero, de forma que converge para em probabilidade. Como conseqüência,Yn∼U(1,n+1n) Y1∼U(1,2) Y2∼U(1,32) Y3∼U(1,43) … y=1 Y=1 P(Y=1)=1 ϵ>0 P(|Yn−Y|≥ϵ) Yn Y Yn também devemos convergir para na distribuição, o que podemos confirmar considerando as CDFs. Como o CDF de é descontínuo em , não precisamos considerar os CDFs avaliados nesse valor, mas para os CDFs avaliados em qualquer outro , podemos ver que a sequência , , , converge para que é zero para e um para . Desta vez, como a sequência de RVs convergiu em probabilidade para uma constante, também convergiu em distribuição para uma constante.Y FY(y) Y y=1 y P(Y1≤y) P(Y2≤y) P(Y3≤y) … P(Y≤y) y<1 y>1
Alguns esclarecimentos finais:
fonte
Na minha opinião, todas as respostas existentes transmitem pontos úteis, mas não deixam clara uma distinção importante entre os dois modos de convergência.
Seja , e sejam variáveis aleatórias. Por intuição, imagine que seus valores atribuídos por algum experimento aleatório que muda um pouco para cada , fornecendo uma sequência infinita de variáveis aleatórias e suponha que obtenha seu valor atribuído por outro experimento aleatório.Xn n=1,2,… Y Xn n Y
Se , temos, por definição, que a probabilidade de e diferirem entre si por uma quantidade arbitrariamente pequena se aproxima de zero como , por uma quantidade tão pequena quanto você gostar. Em termos gerais, na sequência de , estamos confiantes de que e levarão valores muito próximos um do outro.Xn→pY Y Xn n→∞ Xn Xn Y
Por outro lado, se apenas temos convergência na distribuição e não convergência na probabilidade, sabemos que para o grande , é quase o mesmo que , para quase todo . Note que isso não diz nada sobre o quão perto os valores de e são uns com os outros. Por exemplo, se e, assim, também for distribuído dessa maneira para grande , parece intuitivamente provável que os valores de en P(Xn≤x) P(Y≤x) x Xn Y Y∼N(0,1010) Xn n Xn Y diferirá bastante em qualquer observação. Afinal, se não houver restrição sobre eles além da convergência na distribuição, eles podem muito bem, por todos os motivos práticos, serem variáveis independentes .N(0,1010)
(Em alguns casos, pode não fazer sentido comparar e , talvez eles nem estejam definidos no mesmo espaço de probabilidade. Porém, essa é uma observação mais técnica.)Xn Y
fonte
Se você está aprendendo econometria, provavelmente está se perguntando sobre isso no contexto de um modelo de regressão. Ele converge para uma distribuição degenerada, para uma constante. Mas outra coisa tem uma distribuição limitadora não degenerada.
Em que sentido converge na distribuição? Também converge para uma constante. Não para uma variável aleatória distribuída normalmente. Se você calcular a variação de verá que ela diminui com . Então, eventualmente, ele chegará a zero em grande o suficiente , e é por isso que o estimador vai para uma constante. O que converge para uma variável aleatória distribuída normalmente éβ^n β^n n n
nN(0,σ2) β nn−−√(β^n−β) . Se você tomar a variação disso, verá que ele não diminui (nem cresce) com . Em amostras muito grandes, isso será aproximadamente sob suposições padrão. Podemos então usar essa aproximação para aproximar a distribuição de nessa amostra grande.n N(0,σ2) β^n
Mas você está certo de que a distribuição limitadora de também é uma constante.β^n
fonte
Deixe-me tentar dar uma resposta muito curta, usando alguns exemplos muito simples.
Convergência na distribuição
Deixe , para todos os n, então converge para na distribuição. No entanto, a aleatoriedade na realização de não muda com o tempo. Se precisarmos prever o valor de , a expectativa do nosso erro não muda com o tempo.XnX∼N(0,1)XnXnXn∼N(1n,1) Xn X∼N(0,1) Xn Xn
Convergência em probabilidade
Agora, considere a variável aleatória que assume o valor com probabilidade e caso contrário. À medida que vai para o infinito, temos cada vez mais certeza de que será igual a . Portanto, dizemos que converge em probabilidade para . Observe que isso também implica que converge na distribuição para . 0 1 - 1Yn 0 1nSn0Sn0Sn01−1n 1 n Yn 0 Yn 0 Yn 0
fonte