Explicação intuitiva da convergência na distribuição e convergência na probabilidade

26

Qual é a diferença intuitiva entre uma variável aleatória convergindo em probabilidade versus uma variável aleatória convergindo em distribuição?

Eu li várias definições e equações matemáticas, mas isso realmente não ajuda. (Lembre-se de que sou estudante de graduação em economia).

Como uma variável aleatória pode convergir para um único número, mas também para uma distribuição?

nicefella
fonte
11
"Como uma variável aleatória pode convergir para um único número, mas também para uma distribuição?" - Acho que você se beneficiaria de esclarecer se sua confusão é que os RVs em geral podem convergir para números únicos ou para uma distribuição inteira (menos um mistério quando você perceber que o "número único" é essencialmente um tipo especial de distribuição) ou se sua confusão é como um único VR pode convergir para uma constante de acordo com um modo de convergência, mas para uma distribuição de acordo com outro modo de convergência?
Silverfish
11
Como @CloseToC, eu me pergunto se você se deparou com regressões em que, por um lado, foi informado que β^ é "assintoticamente normal", mas, por outro lado, foi informado que ele converge para o \ beta verdadeiro β.
Silverfish
@ Silverfish, eu não tenho realmente!
nicefella

Respostas:

25

Como um número aleatório pode convergir para uma constante?

Digamos que você tenha bolas na caixa. Você pode escolhê-los um por um. Depois de escolher bolas, pergunto: qual é o peso médio das bolas na caixa? Sua melhor resposta seria . Você percebe que si é o valor aleatório? Depende de quais bolas você escolheu primeiro.k ˉ x k = 1Nk ˉ x kkx¯k=1ki=1kxix¯kk

Agora, se você continuar puxando as bolas, em algum momento não haverá mais bolas na caixa e você receberá .x¯Nμ

Então, o que temos é a sequência aleatória que converge para a constante . Portanto, a chave para entender seu problema com convergência em probabilidade é perceber que estamos falando de uma sequência de variáveis ​​aleatórias, construídas de uma certa maneira . ˉ x N=μ

x¯1,,x¯k,,x¯N,x¯N,x¯N,
x¯N=μ

A seguir, vamos obter números aleatórios uniformes , onde . Vejamos a sequência aleatória , em que . O é um valor aleatório, porque todos os seus termos são valores aleatórios. Não podemos prever o que será . Entretanto, podemos afirmar que as distribuições de probabilidade de se parecerão cada vez mais com o padrão normal . É assim que as distribuições convergem.e i[ 0 , 1 ] ξ 1 , Ç 2e1,e2,ei[0,1]ξ k = 1ξ1,ξ2,ξkξkξkN(0,1)ξk=1k12i=1k(ei12)ξkξkξkN(0,1)

Aksakal
fonte
11
Qual é a sequência de variáveis ​​aleatórias no seu primeiro exemplo depois de chegar a N? Como o limite é avaliado?
Ekvall
É apenas uma intuição. Imagine a caixa infinita, portanto, seu estimador converge para a média da população . μx¯μ
Aksakal
21

Não está claro quanta intuição um leitor dessa pergunta pode ter sobre a convergência de qualquer coisa, muito menos de variáveis ​​aleatórias; portanto, escreverei como se a resposta fosse "muito pequena". Algo que pode ajudar: em vez de pensar "como uma variável aleatória pode convergir", pergunte como uma sequência de variáveis ​​aleatórias pode convergir. Em outras palavras, não é apenas uma variável única, mas uma (infinitamente longa!) Lista de variáveis, e as mais adiante na lista estão cada vez mais perto de ... alguma coisa. Talvez um número único, talvez uma distribuição inteira. Para desenvolver uma intuição, precisamos descobrir o que significa "cada vez mais perto". A razão pela qual existem tantos modos de convergência para variáveis ​​aleatórias é que existem vários tipos de "

Primeiro vamos recapitular a convergência de sequências de números reais. Em , podemos usar a distância euclidianapara medir o quão perto está de . Considere . Então a sequência começa e afirmo que converge para . Claramente está se aproximando de , mas também é verdade que está se aproximando de| x - y | x yR |xy|xy x1,xn=n+1n=1+1n2 , 3x1,x2,x3,xn1xn1xn0,90,50,910,90,050,9x20=1,050,0510,052,32,43,54,65,xn1xn1xn0.9. Por exemplo, a partir do terceiro termo, os termos na sequência estão a uma distância de ou menos de . O que importa é que eles estão chegando arbitrariamente perto de , mas não de . Não há termos na seqüência já vêm dentro de , e muito menos estadia tão perto para termos subseqüentes. Por outro lado, também é de , e todos os termos subsequentes estão dentro de de , como mostrado abaixo.0.50.910.90.050.9x20=1.050.0510.051

Convergência de (n + 1) / n para 1

Eu poderia ser mais rigoroso e exigir que os termos obtenham e permaneçam dentro de de e, neste exemplo, acho que isso é verdade para os termos e seguintes. Além disso, eu poderia escolher qualquer limite fixo de proximidade , não importa quão rigoroso (exceto , ou seja, o termo realmente sendo ) e, eventualmente, a condição será satisfeito para todos os termos além de um determinado termo (simbolicamente: para , onde o valor de depende de quão rigoroso um1 N = 1000 ϵ ϵ = 0 1 | x n - x | < Ε n > N N ε x n = 1 +0.0011N=1000ϵϵ=01|xnx|<ϵn>NNϵEu escolhi). Para exemplos mais sofisticados, observe que não estou necessariamente interessado na primeira vez que a condição é atendida - o próximo termo pode não obedecer à condição, e isso é bom, desde que eu possa encontrar um termo mais adiante na sequência para a qual a condição é atendida e permanece atendida para todos os termos posteriores. isso para , que também converge para , com sombreado novamente. 1xn=1+sin(n)n1ϵ=0.05

Convergência de 1 + sin (n) / n para 1

Agora considere e a sequência de variáveis aleatórias . Esta é uma sequência de RVs com , , e assim por diante. Em que sentidos podemos dizer que isso está se aproximando do próprio ?X n =XU(0,1)X1=2XXn=(1+1n)XX1=2XX2=32XX3=43XX

Como e são distribuições, não apenas números únicos, a condição agora é um evento : mesmo para um fixo e isso pode ou não ocorrer . Considerando a probabilidade de ser atingido, gera convergência em probabilidade . Para , queremos a probabilidade complementar - intuitivamente, a probabilidade de que seja um pouco diferente (pelo menos ) de - para arbitrariamente pequeno, por tamanho suficientemente grande X | X n - X | < ϵ n ϵ X n p X P ( | X n - X |ϵ ) X n ϵ X n ϵ P ( | X 1 - X |ϵ ) P ( | X 2 - X |ϵ ) P ( | XXnX|XnX|<ϵnϵXnpXP(|XnX|ϵ)XnϵXn . Para um fixo, isso gera toda uma sequência de probabilidades , , , , e se esta sequência de probabilidades converge para zero (como acontece no nosso exemplo), então dizemos converge em probabilidade para . Observe que os limites de probabilidade geralmente são constantes: por exemplo, em regressões em econometria, vemos medida que aumentamos o tamanho da amostra . Mas aquiϵP(|X1X|ϵ)P(|X2X|ϵ)... X n X Plim ( β ) = β n Plim ( X n ) = X ~ L ( 0 , 1 ) X n X X n X ε nP(|X3X|ϵ)XnXplim(β^)=βnplim(Xn)=XU(0,1). Efetivamente, convergência em probabilidade significa que é improvável que e muito em uma realização específica - e eu posso fazer com que a probabilidade de e esteja além de tão pequena quanto eu queira, desde que eu escolha um suficientemente grande .XnXXnXϵn

Um sentido diferente em que se aproxima de é que suas distribuições se parecem cada vez mais. Eu posso medir isso comparando seus CDFs. Em particular, escolha alguns nos quais é contínuo (no nosso exemplo para que seu CDF seja contínuo em todos os lugares e qualquer fará) e avalie o CDFs da sequência de s lá. Isso produz outra sequência de probabilidades, , , , e essa sequência converge para . As CDFs avaliadas emXnXxFX(x)=P(Xx)XU(0,1)xXnP(X1x)P(X2x)P(X3x)P(Xx)x para cada um dos fica arbitrariamente próximo ao CDF de avaliado em . Se esse resultado for verdadeiro, independentemente de qual escolhemos, converge para na distribuição . Acontece que isso acontece aqui, e nós não deve ser surpreendido desde a convergência na probabilidade de implica convergência na distribuição de . Observe que não pode ser o caso de convergir em probabilidade para uma distribuição não degenerada específica, mas convergir em distribuição para uma constante.XnXxxXnX XXXn (Qual foi possivelmente o ponto de confusão na pergunta original? Mas observe um esclarecimento posteriormente.)

Para um exemplo diferente, deixe . Agora temos uma sequência de RVs, , , , e é claro que a distribuição de probabilidade está degenerando para um pico em . Agora considere a distribuição degenerada , com a qual quero dizer . É fácil ver que, para qualquer , a sequência converge para zero, de forma que converge para em probabilidade. Como conseqüência,YnU(1,n+1n)Y1U(1,2)Y2U(1,32)Y3U(1,43)y=1Y=1P(Y=1)=1ϵ>0P(|YnY|ϵ)YnYYntambém devemos convergir para na distribuição, o que podemos confirmar considerando as CDFs. Como o CDF de é descontínuo em , não precisamos considerar os CDFs avaliados nesse valor, mas para os CDFs avaliados em qualquer outro , podemos ver que a sequência , , , converge para que é zero para e um para . Desta vez, como a sequência de RVs convergiu em probabilidade para uma constante, também convergiu em distribuição para uma constante.YFY(y)Yy=1yP(Y1y)P(Y2y)P(Y3y)P(Yy)y<1y>1

Alguns esclarecimentos finais:

  • Embora convergência em probabilidade implique convergência em distribuição, o inverso é falso em geral. Só porque duas variáveis ​​têm a mesma distribuição, não significa que é provável que elas se aproximem. Para um exemplo trivial, use e . Então e têm exatamente a mesma distribuição (uma chance de 50% de ser zero ou um) e a sequência ou seja, a sequência que passa por converge trivialmente na distribuição para (o CDF em qualquer posição na sequência é o mesmo que o CDF de ). Mas eXBernouilli(0.5)Y=1XXYXn=XX,X,X,X,YYYXestão sempre um à parte, então portanto, não tende a zero, portanto não converge para em probabilidade. No entanto, se houver convergência na distribuição para uma constante , isso implica convergência em probabilidade para essa constante (intuitivamente, ainda mais na sequência, será improvável que esteja longe dessa constante).P(|XnY|0.5)=1XnY
  • Como meus exemplos deixam claro, a convergência em probabilidade pode ser constante, mas não precisa ser; a convergência na distribuição também pode ser constante. Não é possível convergir em probabilidade para uma constante, mas convergir em distribuição para uma distribuição não degenerada específica ou vice-versa.
  • É possível que você tenha visto um exemplo em que, por exemplo, lhe disseram que uma sequência converteu outra sequência ? Você pode não ter percebido que era uma sequência, mas a distribuição seria se fosse uma distribuição que também dependesse de . Pode ser que ambas as sequências converjam para uma constante (ou seja, distribuição degenerada). Sua pergunta sugere que você está se perguntando como uma sequência específica de RVs pode convergir para uma constante e para uma distribuição; Gostaria de saber se este é o cenário que você está descrevendo.Xn Ynn
  • Minha explicação atual não é muito "intuitiva" - eu pretendia tornar a intuição gráfica, mas ainda não tive tempo de adicionar os gráficos para os RVs.
Silverfish
fonte
16

Na minha opinião, todas as respostas existentes transmitem pontos úteis, mas não deixam clara uma distinção importante entre os dois modos de convergência.

Seja , e sejam variáveis ​​aleatórias. Por intuição, imagine que seus valores atribuídos por algum experimento aleatório que muda um pouco para cada , fornecendo uma sequência infinita de variáveis ​​aleatórias e suponha que obtenha seu valor atribuído por outro experimento aleatório.Xnn=1,2,YXnnY

Se , temos, por definição, que a probabilidade de e diferirem entre si por uma quantidade arbitrariamente pequena se aproxima de zero como , por uma quantidade tão pequena quanto você gostar. Em termos gerais, na sequência de , estamos confiantes de que e levarão valores muito próximos um do outro.XnpYYXnnXnXnY

Por outro lado, se apenas temos convergência na distribuição e não convergência na probabilidade, sabemos que para o grande , é quase o mesmo que , para quase todo . Note que isso não diz nada sobre o quão perto os valores de e são uns com os outros. Por exemplo, se e, assim, também for distribuído dessa maneira para grande , parece intuitivamente provável que os valores de enP(Xnx)P(Yx)xXnYYN(0,1010)XnnXnYdiferirá bastante em qualquer observação. Afinal, se não houver restrição sobre eles além da convergência na distribuição, eles podem muito bem, por todos os motivos práticos, serem variáveis independentes .N(0,1010)

(Em alguns casos, pode não fazer sentido comparar e , talvez eles nem estejam definidos no mesmo espaço de probabilidade. Porém, essa é uma observação mais técnica.)XnY

ekvall
fonte
11
(+1) Você nem precisa do para variar - eu acrescentaria alguns detalhes sobre isso à minha resposta, mas decidi contra isso por questões de extensão. Mas acho que vale a pena enfatizar. Xn
Silverfish
12

O que não entendo é como uma variável aleatória pode convergir para um único número, mas também para uma distribuição?

Se você está aprendendo econometria, provavelmente está se perguntando sobre isso no contexto de um modelo de regressão. Ele converge para uma distribuição degenerada, para uma constante. Mas outra coisa tem uma distribuição limitadora não degenerada.

β^n converge em probabilidade para se as premissas necessárias forem atendidas. Isso significa que, ao escolher um tamanho de amostra grande o suficiente , o estimador estará o mais próximo possível do parâmetro true, com a probabilidade de ele estar mais distante, tão pequeno quanto desejar. Se você pensar em plotar o histograma de para vários , acabará sendo apenas um pico centrado em .βNβ^nnβ

Em que sentido converge na distribuição? Também converge para uma constante. Não para uma variável aleatória distribuída normalmente. Se você calcular a variação de verá que ela diminui com . Então, eventualmente, ele chegará a zero em grande o suficiente , e é por isso que o estimador vai para uma constante. O que converge para uma variável aleatória distribuída normalmente éβ^nβ^nnn

nN(0,σ2) β nn(β^nβ) . Se você tomar a variação disso, verá que ele não diminui (nem cresce) com . Em amostras muito grandes, isso será aproximadamente sob suposições padrão. Podemos então usar essa aproximação para aproximar a distribuição de nessa amostra grande.nN(0,σ2)β^n

Mas você está certo de que a distribuição limitadora de também é uma constante.β^n

CloseToC
fonte
11
Veja isso como "olhando para com uma lupa", com a ampliação aumentando com na taxa . nβn^nn
Kjetil b halvorsen
7

Deixe-me tentar dar uma resposta muito curta, usando alguns exemplos muito simples.

Convergência na distribuição

Deixe , para todos os n, então converge para na distribuição. No entanto, a aleatoriedade na realização de não muda com o tempo. Se precisarmos prever o valor de , a expectativa do nosso erro não muda com o tempo.XnXN(0,1)XnXnXnN(1n,1)XnXN(0,1)XnXn

Convergência em probabilidade

Agora, considere a variável aleatória que assume o valor com probabilidade e caso contrário. À medida que vai para o infinito, temos cada vez mais certeza de que será igual a . Portanto, dizemos que converge em probabilidade para . Observe que isso também implica que converge na distribuição para . 0 1 - 1Yn0 1nSn0Sn0Sn011n1nYn0Yn0Yn0

Sven
fonte