O que há de tão legal no teorema da representação de Finetti?

55

De Theory of Statistics, de Mark J. Schervish (página 12):

Embora o teorema de representação de DeFinetti 1.49 seja central para motivar modelos paramétricos, ele não é realmente usado em sua implementação.

Como o teorema é central para os modelos paramétricos?

gui11aume
fonte
2
Eu acho que é central para os modelos bayesianos. Eu estava discutindo isso com singleton. Sua importância nas estatísticas bayesianas é negligenciada, exceto pelos bayesianos que eram seguidores de deFinetti. Veja esta referência de Diaconis e Freedman de 1980
Michael Chernick
11
@ cardinal: página 12 (atualizei a pergunta).
precisa saber é o seguinte
2
Observe que Schervish disse "... central para os modelos paramétricos ...". motivating
Zen
11
Eu sempre me perguntei quanto da representação é "real" e quanto é baseado em interpretações particulares do teorema. Pode ser tão facilmente usado para descrever uma distribuição anterior quanto para descrever um modelo.
probabilityislogic '

Respostas:

79

O Teorema da Representação de De Finetti fornece, de uma só vez, dentro da interpretação subjetivista das probabilidades, a razão de ser dos modelos estatísticos e o significado dos parâmetros e suas distribuições anteriores.

Suponha que as variáveis ​​aleatórias representem os resultados de lançamentos sucessivos de uma moeda, com os valores e correspondentes aos resultados "Cabeças" e "Caudas", respectivamente. Analisando, no contexto de uma interpretação subjetivista do cálculo de probabilidade, o significado do modelo freqüentista usual sob o qual os são independentes e distribuídos de forma idêntica, De Finetti observou que a condição de independência implicaria, por exemplo, que e, portanto, os resultados do primeiro Lances não mudariam minha incerteza sobre o resultado de 1 0 X i P { X n = x nX 1 = x 1 , , X n - 1 = x n - 1 } = P { X n = x n }X1,,Xn10XiN - 1 n a priori 999 1 / 2 X i

P{Xn=xnX1=x1,,Xn1=xn1}=P{Xn=xn},
n1n-th lance. Por exemplo, se eu acredito que esta é uma moeda equilibrada, depois de obter as informações que os primeiros lançam eram "Chefes", eu ainda acreditaria, condicionalmente nessas informações, que o A probabilidade de obter "Chefes" no sorteio 1000 é igual a . Efetivamente, a hipótese de independência dos significaria que é impossível aprender algo sobre a moeda observando os resultados de seus lançamentos.a priori9991/2Xi

Essa observação levou De Finetti à introdução de uma condição mais fraca que a independência, que resolve essa aparente contradição. A chave da solução de De Finetti é um tipo de simetria distributiva conhecida como permutabilidade.

{ X i } n i = 1 μ X 1 , , X n μ X 1 , , X n = μ X π ( 1 ) , , X π ( n ) π : { 1 , , n } { 1 , , n } { X iDefinition. Para um determinado conjunto finito de objetos aleatórios, vamos denotar sua distribuição conjunta. Esse conjunto finito é intercambiável se , para cada permutação . Uma sequência de objetos aleatórios é intercambiável se cada um de seus subconjuntos finitos for intercambiável.{Xi}i=1nμX1,,XnμX1,,Xn=μXπ(1),,Xπ(n)π:{1,,n}{1,,n}{Xi}i=1

Supondo apenas que a sequência de variáveis ​​aleatórias é permutável, De Finetti provou um notável teorema que lança luz sobre o significado de modelos estatísticos comumente usados. No caso específico em que os assumem os valores e , o Teorema da Representação de De Finetti diz que é intercambiável se e somente se houver uma variável aleatória , com distribuição , de modo que em que . Além disso, temos que Xi01{Xi}i = 1 Θ:ohms[0,1]uΘP{X1=x1,...,Xn=xn}=[0,1]θs(1-θ){Xi}i=1Xi01{Xi}i=1Θ:Ω[0,1]μΘ

P{X1=x1,,Xn=xn}=[0,1]θs(1θ)nsdμΘ(θ),
s=i=1nxi
X¯n=1ni=1nXinΘalmost surely,
que é conhecido como a forte lei de grandes números de De Finetti.

Este Teorema de Representação mostra como os modelos estatísticos emergem em um contexto bayesiano: sob a hipótese de dos observáveis , a de modo que, dado o valor de , os observáveis ​​sejam independentes e distribuídos de forma idêntica. Além disso, a lei Forte de De Finetti mostra que nossa opinião anterior sobre o não observável , representada pela distribuição , é a opinião sobre o limite de , antes de termos informações sobre os valores das realizações de qualquer um dos existe{Xi}i=1there isparameter ΘΘconditionallyΘμΘX¯nXi's. O parâmetro desempenha o papel de uma construção subsidiária útil, que nos permite obter probabilidades condicionais envolvendo apenas observáveis ​​através de relações como Θ

P{Xn=1X1=x1,,Xn1=xn1}=E[ΘX1=x1,,Xn1=xn1].
zen
fonte
2
Obrigado por esta resposta perspicaz! O seu ponto de vista sobre independência é muito importante que eu percebo pela primeira vez.
gui11aume
( "a utilidade" era melhor :))
Neil G
11
Estou tendo dificuldade para entender a afirmação "existe o parâmetro para que (dado ) seja iid". Do teorema da representação, parece que tudo o que podemos derivar é que . Ou seja, o valor esperado da densidade real é o mesmo que o valor esperado da densidade iid bernoulli com o parâmetro . Você poderia me esclarecer como podemos reduzir o valor esperado para que possamos reivindicar a verdadeira densidade? ΘΘXiE[θs(1θ)s]=E[P(Xi=xii|θ)]θ
user795305
O integrando é . Como ele é como , os são condicionalmente dados . Pr{X1=x1,,Xn=xnΘ=θ}i=1nPr{Xi=xiΘ=θ}=i=1nθxi(1θ)1xiXiΘ=θ
Zen
@ Zen Obrigado! Eu entendo a primeira frase, porém a parte ", uma vez que ela é como "ainda não está claro para mim. Como você sabe que isso é fator dessa maneira? Parece que você está descartando o valor esperado da identidade que escrevi no meu comentário anterior, mas não tenho certeza de como isso se justifica. i=1nPr{Xi=xiΘ=θ}=i=1nθxi(1θ)1xi
user795305
17

Tudo está matematicamente correto na resposta do Zen. No entanto, discordo de alguns pontos. Esteja ciente de que não afirmo / acredito que meu ponto de vista seja bom; pelo contrário, sinto que esses pontos ainda não estão totalmente claros. Essas são perguntas filosóficas sobre as quais eu gosto de discutir (e um bom exercício de inglês para mim), e também estou interessado em algum conselho.

  • Sobre o exemplo de "Cabeças", o comentário do Zen: "a hipótese de independência dos significaria que é impossível aprender algo sobre a moeda observando os resultados de seus lançamentos". Isso não é verdade da perspectiva freqüentista: aprender sobre a moeda significa aprender sobre , o que é possível estimando (estimativa de ponto ou intervalo de confiança) partir dos resultados anteriores . Se o freqüentador observar "Chefes", ele / ela conclui que provavelmente está próximo de , e consequentemente.999Xiθθ999999θ1Pr(Xn=1)

  • A propósito, neste exemplo de lançamento de moeda, qual é o aleatório ? Imaginando cada uma das duas pessoas jogando um jogo de arremesso de moedas um número infinito de vezes com a mesma moeda, por que eles encontrariam um ? Eu tenho em mente que a característica do lançamento de moeda é o fixo, que é o valor comum de para qualquer jogador ("quase qualquer jogador" por razões matemáticas técnicas). Um exemplo mais concreto para o qual não há aleatório interpretável é o caso de uma amostragem aleatória com substituição em uma população finita de e .Θθ=X¯θX¯Θ01

  • Sobre o livro de Schervish e a questão levantada pelo OP, acho que (falando rapidamente) Schervish significa que a permutabilidade é uma suposição "legal" e, em seguida, o teorema de DeFinetti é "legal" porque diz que todo modelo permutável tem uma representação paramétrica. Claro que concordo totalmente. No entanto, se eu assumir um modelo intercambiável como e então eu estaria interessado em fazer inferência sobre e , e não sobre a realização de . Se estou interessado apenas na realização de , não vejo nenhum interesse em assumir a permutabilidade.Θ ~ Beta ( a , b ) um b Θ Θ(XiΘ=θ)iidBernoulli(θ)ΘBeta(a,b)abΘΘ

Está tarde...

Stéphane Laurent
fonte
4
Olá Stéphane! Obrigado por seus comentários na minha resposta. Sobre o seu primeiro argumento de que , na minha resposta tudo é afirmado em um contexto bayesiano. Não existe uma tentativa real de estabelecer um contraste com outros paradigmas de inferência. Em resumo, tentei expressar o que o teorema de De Finetti significa para mim, como bayesiano. "this is not true from the frequentist perspective"
Zen
4
Sobre o seu segundo marcador: o aleatório é (as) o limite de , conforme declarado no LLN de De Finetti. Então, quando algum bayesiano diz que meu prior para é , ele quer dizer que essa distribuição representa sua incerteza sobre esse limite, antes de ter acesso aos dados. Bayesianos diferentes podem ter antecedentes diferentes, mas, com condições de regularidade adequadas, terão acordo sobre (posteriores semelhantes), à medida que obtêm mais e mais informações sobre os resultados dos lançamentos. ˉ X n Θ u Θ a posteriori ΘΘX¯nΘμΘa posterioriΘ
Zen
O fixo, mas desconhecido, não é um conceito bayesiano. θ
Zen
11
Sobre o seu terceiro item, dado: 1) Que Schervish é um estatístico bayesiano; 2) A quantidade de tempo e energia que ele gasta discutindo a permutabilidade em seu livro; Acredito que, para ele, o papel do teorema de De Finetti é muito profundo, indo muito além da frieza. Mas eu concordo que é muito legal, de qualquer maneira!
Zen
2
Para esclarecer meu ponto de vista: não acredito que haja um aleatório em um modelo bayesiano "básico" (não hierárquico). Existe um desconhecido fixo , e a distribuição anterior descreve a crença a respeito. O papel da variável aleatória é apenas o tratamento matemático da inferência bayesiana; ela não tem nenhuma interpretação no experimento. Se você realmente assumir observações permutáveis, mas não independentes, como o exemplo da minha terceira bala, então você tem que colocar hyperpriors em e . θ Θ a bθθΘab
Stéphane Laurent
11

Vocês podem estar interessados ​​em um artigo sobre este assunto (é necessária uma assinatura de periódico para acessar - tente acessá-lo na sua universidade):

O'Neill, B. (2011) Permutabilidade, correlação e Efeito de Bayes. International Statistical Review 77 (2), pp. 241-250.

Este artigo discute o teorema da representação como base para os modelos bayesiano e freqüencial de IDI e também o aplica a um exemplo de lançamento de moeda. Deve esclarecer a discussão dos pressupostos do paradigma freqüentista. Na verdade, ele usa uma extensão mais ampla do teorema da representação que vai além do modelo binomial, mas ainda deve ser útil.

Estatísticas
fonte
Existe talvez uma versão em papel de trabalho disso? Eu não tenho acesso atm :-(
IMA
11
@Stats Eu li esse jornal depois de ver sua resposta. Devo dizer que esse é o melhor artigo que ilustra Bayesiano e Frequentista sobre esse assunto que eu já vi. Eu gostaria de ter lido este artigo muito antes. (+1)
KevinKim