Bayesianos: escravos da função de probabilidade?

62

Em seu livro "All of Statistics", o Prof. Larry Wasserman apresenta o seguinte Exemplo (11.10, página 188). Suponha que temos uma densidade tal que , onde é uma função conhecida (não-negativa, integrável) e a constante de normalização é desconhecida .f ( x ) = Cfg c > 0f(x)=cg(x)gc>0

Estamos interessados ​​nos casos em que não podemos calcular . Por exemplo, pode ser que seja um pdf em um espaço de amostra com dimensões muito altas.fc=1/g(x)dxf

É sabido que existem técnicas de simulação que nos permitem coletar amostras de , mesmo que seja desconhecido. Portanto, o enigma é: como poderíamos estimar partir de uma amostra?c cfcc

Wasserman descreve a seguinte solução bayesiana: seja um pouco anterior para . A probabilidade é Portanto, o posterior não depende dos valores da amostra . Portanto, um bayesiano não pode usar as informações contidas na amostra para fazer inferências sobre .c L x ( c ) = n Π i = 1 F ( x i ) = n Π i = 1 ( cπcπ ( c x ) c n π ( c ) x 1 , , x n c

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

Wasserman ressalta que "os bayesianos são escravos da função de probabilidade. Quando a probabilidade dá errado, o mesmo ocorre com a inferência bayesiana".

Minha pergunta para meus colegas empilhadores é: Nesse exemplo em particular, o que deu errado (se houver) na metodologia bayesiana?

PS Como o professor Wasserman gentilmente explicou em sua resposta, o exemplo é devido a Ed George.

zen
fonte
10
Este exemplo soa apenas como uma maneira bizarra e ineficaz de conduzir a integração numérica, e não como qualquer análise bayesiana.
whuber
2
Como você pode dizer que o bayesiano não aprende nada sobre . Se fosse esse o caso, teríamos . Claramente não é. cπ(c|x)π(c)
probabilityislogic
2
Eu realmente não entendo este exemplo. Se não depende de , não é surpreendente que os dados não sejam informativos, pois depende apenas da forma de e é o mesmo para amostra? Obviamente, estou perdendo algum ponto sutil (ou não tão sutil). g()ccg()any
Dikran Marsupial
Inventei uma abordagem formalmente bayesiana que pode superar a objeção de @ Zen, não contraindica a falta de interesse de Xi'an e acaba apenas avaliando a precisão da integração numérica.
Phaneron 25/10/12
11
Um bom acompanhamento no blog de Larry: normaldeviate.wordpress.com/2012/10/05/...
Zen

Respostas:

43

Isso foi discutido em meu artigo (publicado apenas na internet) "Em um exemplo de Larry Wasserman" [ 1 ] e em uma troca de blogs entre mim, Wasserman, Robins e alguns outros comentadores no blog de Wasserman: [ 2 ]

A resposta curta é que Wasserman (e Robins) geram paradoxos ao sugerir que os priores em espaços de alta dimensão "devem" ter características que impliquem que o parâmetro de interesse seja conhecido a priori com quase certeza ou que seja um problema claramente relevante (viés de seleção) é conhecido com quase certeza de não estar presente. De fato, os priores sensíveis não teriam essas características. Estou escrevendo um post de resumo para reunir isso. Há um excelente artigo de 2007, mostrando abordagens bayesianas sensatas aos exemplos que Wasserman e Ritov consideram, por Hameling e Toussaint: “Estimadores bayesianos para o problema de Robins-Ritov” [ 3 ]

Chris Sims
fonte
12
Obrigado por sua contribuição, Prof. Sims. Você concorda com a minha resposta abaixo? PS Agora, temos prêmios Nobel publicados no SE. Que tal isso? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen
11
@ChrisSims Professor Sims Obrigado por ter vindo e dispensado minha resposta com sua resposta muito autoritária!
Michael Chernick 02/10/12
4
Estou alarmado com o fato de que esta resposta tem o maior número de votos (a partir de agora). Como observa o professor Wasserman, a resposta do professor Sims é sobre um quebra-cabeça completamente diferente do que o Zen perguntou. Eu deduzo que a maioria das pessoas votou positivamente sem ter lido e compreendido os links fornecidos pelos Sims.
Ciano
3
Ciano, você pode encontrar os comentários do Prof. Sim sobre esse quebra-cabeça em Link [1], WassermanComment.pdf, p. 10, Seção VII. Postscript 2.
madprob
43

Não vejo muito apelo neste exemplo, esp. como uma crítica potencial aos bayesianos e aos wallahs de probabilidade .... A constante é conhecida, sendo igual a Se for o único " desconhecido "na figura, dada uma amostra , não há problema estatístico sobre o problema e não concordo que existam estimadores de . Nem antecedentes sobre (outros do que a massa de Dirac no valor acima). Este não é, no mínimo, um problema estatístico, mas sim um problema numérico .c

1/Xg(x)dx
cx1,,xncc

O fato de a amostra poder ser usada através de uma estimativa de densidade (freqüentista) para fornecer uma aproximação numérica de é uma mera curiosidade. Não é uma crítica de abordagens estatísticas alternativas: eu também poderia usar uma estimativa de densidade bayesiana ...x1,,xnc

Xi'an
fonte
4
Não é possível começar com um prévio adequado e terminar com um posterior inadequado se a probabilidade for uma verdadeira densidade condicional!
Xian
Como definir a diferença entre uma constante desconhecida e um parâmetro? Em Introdução à Probabilidade, de Finetti considera provocar sua incerteza para . De Finetti consideraria diferente de ? Caso contrário, a observação dos dados mudaria sua incerteza sobre ? Também em relação a constantes / parâmetros desconhecidos. Digamos que Alice escolha uma constante e digite , . Embora seja uma constante desconhecida, Bob seria capaz de obter seu prior para e usar para aprender sobreπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc. Por que no exemplo de Wasserman é diferente? c
madprob
3
Eu não sou de Finetti, então não posso responder por ele!
Xian
3
Seu exemplo é estatístico: recebo observações cuja distribuição subjacente é governada por um parâmetro desconhecido c . O exemplo de Larry (ou de Ed!) Não é estatístico: a distribuição da amostra é completamente conhecida e não é conduzida por um parâmetro desconhecido c . Isso é ilustrado ainda mais pela resposta de Zen : você simplesmente não pode escrever sem terminar com um paradoxo, porque existe apenas um único valor possível de c. f(x1,,xn|c)
Xian
40

Eu concordo que o exemplo é estranho. Eu queria que fosse realmente mais um quebra-cabeça. (O exemplo é realmente devido a Ed George.)

Isso levanta a questão do que significa algo ser "conhecido". Christian diz que é conhecido. Mas, pelo menos do ponto de vista da probabilidade puramente subjetiva, você não o conhece apenas porque em princípio pode ser conhecido. (Suponha que você não possa fazer a integral numérica.) Um bayesiano subjetivo considera tudo como uma variável aleatória com uma distribuição, incluindo .cc

De qualquer forma, o jornal

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae e Z. Tan (2003), uma teoria de modelos estatísticos para a integração de Monte Carlo , J. Royal Statistic. Soc. B , vol. 65, n. 3, 585-604

(com discussão) trata essencialmente do mesmo problema.

O exemplo que Chris Sims faz alusão em sua resposta é de natureza muito diferente.

Larry Wasserman
fonte
3
Professor Wasserman Obrigado por vir e explicar seu exemplo e sua história. Eu era um estudante de graduação em Stanford e se sobrepunha a Ed George. O Departamento de Estatística de Stanford era muito não bayesiano naqueles dias, embora com Efron e Stein estivéssemos à margem de Bayes empíricos. Embora o departamento tenha muita mente aberta, Dennis Lindley fez um curso de pós-graduação em estatística bayesiana que eu fiz em um verão. De alguma forma, Ed se converteu em um bayesiano de pleno direito e até escreveu um artigo sobre amostras de Gibbs para manequins (embora não com esse título, é claro).
22812 Michael Chernick
11
Eu gosto e leio seus livrinhos "All of Statistics" e "All of Nonparametrics".
Michael Chernick
11
talvez não tão coincidentemente, discuti este artigo de Kong et al. (2003), sendo principalmente negativos sobre a eficiência do uso de transformações de grupo na medida e não na distribuição. Ultimamente, Xiao-Li definir-me para uma percepção mais positiva do papel ...
Xi'an
11
"Suponha que você não possa fazer a integral numérica." Entendo que a incerteza lógica (da qual este é um exemplo) resistiu à análise, apesar dos esforços consideráveis.
John Salvatier #
Pela mesma lógica que é desconhecida porque você não pode calculá-la, acho que você também teria que concluir que a função é "desconhecida" e colocar um prior no espaço de função em que vive. Certamente você "sabe" , , ... porque você pode avaliar , mas, de uma perspectiva de análise funcional, afirmo que você não "sabe" o que é uma função, a menos que possa testá-la contra qualquer elemento do dual espaço, como a integração funcional. cgg(x1)g(x2)g
Nick Alger
23

O modelo estatístico proposto pode ser descrito como segue: Tem uma conhecida não negativo função integrável , e uma variável aleatória não negativo . As variáveis ​​aleatórias devem ser condicionalmente independentes e distribuídas de forma idêntica, dado que , com densidade condicional , para .g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

Infelizmente, em geral, essa não é uma descrição válida de um modelo estatístico. O problema é que, por definição, deve ser uma densidade de probabilidade para quase todos os valores possíveis de , o que é, em geral, claramente falso. De fato, isso é verdade apenas para o valor único . Portanto, o modelo é especificado corretamente apenas no caso trivial quando a distribuição de está concentrada nesse valor específico. Obviamente, não estamos interessados ​​neste caso. O que queremos é que a distribuição de seja dominada pela medida de Lebesgue, com um bom pdf .fXiC(c) cc=(g(x)dx)1CCπ

Portanto, definindo , a expressão tomada como uma função de , para fixo , não corresponde a uma função de verossimilhança genuína.x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

Tudo depois disso herda deste problema. Em particular, o posterior calculado com o Teorema de Bayes é falso. É fácil ver que: suponha que você tenha uma adequada antes Observe que . De acordo com o cálculo apresentado no exemplo, o posterior deve ser Mas se isso estiver certo, esse posterior seria sempre impróprio, porque diverge para cada tamanho de amostra .

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

Isso é impossível: sabemos que, se começarmos com um prior adequado, nosso posterior não poderá ser impróprio para todas as amostras possíveis (pode ser impróprio dentro de um conjunto de probabilidade preditiva prévia nula).

zen
fonte
Lamento que ninguém tenha comentado sua resposta. Acho que você pode ter razão, mas estou um pouco confusa. Certamente você pode colocar distribuições anteriores válidas nos números reais positivos. Por que você não pode definir uma densidade de probabilidade f para cada c> 0 se g é não-negativo e tem uma integral finita em R ? +
Michael Chernick
11
Olá Michael. Claro que você pode: Gamma, Lognormal, etc, etc. Não vejo como isso está relacionado à resposta. Provavelmente não entendo o que você está dizendo.
Zen
Bem, estou tendo problemas para seguir seu argumento. Você diz que a densidade condicional para f existe apenas para um c, mas isso não é verdade. Não vejo por que a expressão para a probabilidade é inválida e como você obtém uma prova por contradição, assumindo uma prévia adequada e mostrando de alguma forma que ela leva a uma distribuição posterior inadequada.
Michael Chernick
Parece-me que o cerne da questão é que os dados são realmente independentes de c e não contêm informações sobre c. Eu acho que você pode dizer que existe uma função probável envolvendo c, mas essa probabilidade não pode ser maximizada em função de c. Para cada escolha de c, acho que existe um f = cg.
Michael Chernick
4
g(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
11

O exemplo é um pouco estranho e artificial. A razão pela qual a probabilidade dá errado é porque g é uma função conhecida . O único parâmetro desconhecido é c, que não faz parte da probabilidade. Além disso, como g é conhecido, os dados não fornecem informações sobre f. Quando você vê isso na prática? Portanto, o posterior é apenas proporcional ao anterior e todas as informações sobre c estão no anterior.

Ok, mas pense sobre isso. Os freqüentistas usam a máxima probabilidade e, portanto, os freqüentadores às vezes também dependem da função de probabilidade. Bem, o frequentista pode estimar parâmetros de outras maneiras que você pode dizer. Mas esse problema criado possui apenas um parâmetro c e não há informações nos dados sobre c. Como g é conhecido, não há problema estatístico relacionado a parâmetros desconhecidos que possam ser obtidos fora do período de dados.

Michael Chernick
fonte
cf^fxc^=f^(x)/g(x)c
4
@ Zen Ok, vamos dar esse exemplo. Por que coletar dados? Nós sabemos g. Assim, podemos integrá-lo numericamente para determinar c para qualquer nível de precisão que desejarmos, sem precisar estimar nada! A suposição de que não podemos calcular c, o que significa que, apesar de conhecermos g em função de x, não podemos integrá-lo! Eu acho que o exemplo dele é fraco e o argumento também, e eu gosto de seus livros de um modo geral.
Michael Chernick 01/10/12
11

Há uma ironia de que a maneira padrão de se fazer cálculos bayesianos é usar análises freqüentes de amostras de MCMC. Neste exemplo, podemos considerar que está intimamente relacionado à probabilidade marginal, que gostaríamos de calcular, mas seremos puristas bayesianos no sentido de tentar também fazer o cálculo de maneira bayesiana.c

Não é comum, mas é possível fazer isso integral em uma estrutura bayesiana. Isso envolve colocar um prior na função (na prática, um processo gaussiano), avaliar a função em alguns pontos, condicionar esses pontos e calcular uma integral sobre o posterior sobre . Nessa situação, a probabilidade envolve a avaliação de em vários pontos, mas é de outra maneira desconhecida; portanto, a probabilidade é bem diferente da probabilidade fornecida acima. O método é demonstrado neste artigo http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg()g()g()g()

Eu não acho que nada deu errado com a metodologia bayesiana. A probabilidade como escrita trata como conhecida em todos os lugares. Se fosse esse o caso, não haveria aspecto estatístico no problema. Se é considerado desconhecido, exceto em um número finito de pontos, a metodologia bayesiana funciona bem.g()g()

David Rohde
fonte
Surpreendeu que isso não tenha mais votos positivos. Isso chega ao cerne da questão, que é a afirmação ambígua de que você "sabe" o que é uma função apenas porque você pode avaliá-la a qualquer momento. Eu acho que um critério mais apropriado para dizer que você "conhece" uma função é a capacidade de avaliar qualquer funcionalidade linear contínua nela.
Nick Alger
@ Nick Alger: As pessoas provavelmente perderam o interesse. Não voto positivo porque não estou convencido de que é Bayes - o xi no conjunto D (xi, f (xi)) se refere ao xi observado no estudo ou gerado aleatoriamente por eles? Se for o primeiro, é Bayes, mas é muito fácil de vencer com um MC simples, com alguns segundos de tempo de computação (para que não funcione bem) ou não é Bayes (não depende dos dados).
Phaneron 31/10/12
-2

Poderíamos estender a definição de possíveis conhecidos (análoga à extensão de dados para permitir a falta de dados para dados observados mas perdidos) para incluir NULL (nenhum dado gerado).

Suponha que você tenha um anterior apropriado Agora defina o modelo de dados para x

π(c)=1c2I[1,)(c).

Sec=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a para qualquer}

Caso contrário,faXaC(xac)=0

Portanto, o posterior seria 0 ou 1 (adequado), mas a probabilidade do modelo de dados acima não está disponível (porque você não pode determinar a condição necessária no modelo de dados).

Então você faz ABC.

Desenhe um "c" do anterior.

Agora aproxime por alguma integração numérica e mantenha “c” se essa aproximação - “c” <epsilon.(g(x)dx)1

Os c mantidos serão uma aproximação do verdadeiro posterior.

(A precisão da aproximação dependerá do epsilon e da suficiência do condicionamento nessa aproximação.)

phaneron
fonte
-5

π(c|x)=(Πig(xi))cnπ(c),
{xi}
confuso
fonte
2
xf(xc)π(c)dci=1ng(xi)