Em seu livro "All of Statistics", o Prof. Larry Wasserman apresenta o seguinte Exemplo (11.10, página 188). Suponha que temos uma densidade tal que , onde é uma função conhecida (não-negativa, integrável) e a constante de normalização é desconhecida .f ( x ) = Cg c > 0
Estamos interessados nos casos em que não podemos calcular . Por exemplo, pode ser que seja um pdf em um espaço de amostra com dimensões muito altas.f
É sabido que existem técnicas de simulação que nos permitem coletar amostras de , mesmo que seja desconhecido. Portanto, o enigma é: como poderíamos estimar partir de uma amostra?c c
Wasserman descreve a seguinte solução bayesiana: seja um pouco anterior para . A probabilidade é Portanto, o posterior não depende dos valores da amostra . Portanto, um bayesiano não pode usar as informações contidas na amostra para fazer inferências sobre .c L x ( c ) = n Π i = 1 F ( x i ) = n Π i = 1 ( cπ ( c ∣ x ) ∝ c n π ( c ) x 1 , … , x n c
Wasserman ressalta que "os bayesianos são escravos da função de probabilidade. Quando a probabilidade dá errado, o mesmo ocorre com a inferência bayesiana".
Minha pergunta para meus colegas empilhadores é: Nesse exemplo em particular, o que deu errado (se houver) na metodologia bayesiana?
PS Como o professor Wasserman gentilmente explicou em sua resposta, o exemplo é devido a Ed George.
Respostas:
Isso foi discutido em meu artigo (publicado apenas na internet) "Em um exemplo de Larry Wasserman" [ 1 ] e em uma troca de blogs entre mim, Wasserman, Robins e alguns outros comentadores no blog de Wasserman: [ 2 ]
A resposta curta é que Wasserman (e Robins) geram paradoxos ao sugerir que os priores em espaços de alta dimensão "devem" ter características que impliquem que o parâmetro de interesse seja conhecido a priori com quase certeza ou que seja um problema claramente relevante (viés de seleção) é conhecido com quase certeza de não estar presente. De fato, os priores sensíveis não teriam essas características. Estou escrevendo um post de resumo para reunir isso. Há um excelente artigo de 2007, mostrando abordagens bayesianas sensatas aos exemplos que Wasserman e Ritov consideram, por Hameling e Toussaint: “Estimadores bayesianos para o problema de Robins-Ritov” [ 3 ]
fonte
Não vejo muito apelo neste exemplo, esp. como uma crítica potencial aos bayesianos e aos wallahs de probabilidade .... A constante é conhecida, sendo igual a Se for o único " desconhecido "na figura, dada uma amostra , não há problema estatístico sobre o problema e não concordo que existam estimadores de . Nem antecedentes sobre (outros do que a massa de Dirac no valor acima). Este não é, no mínimo, um problema estatístico, mas sim um problema numérico .c
O fato de a amostra poder ser usada através de uma estimativa de densidade (freqüentista) para fornecer uma aproximação numérica de é uma mera curiosidade. Não é uma crítica de abordagens estatísticas alternativas: eu também poderia usar uma estimativa de densidade bayesiana ...x1,…,xn c
fonte
Eu concordo que o exemplo é estranho. Eu queria que fosse realmente mais um quebra-cabeça. (O exemplo é realmente devido a Ed George.)
Isso levanta a questão do que significa algo ser "conhecido". Christian diz que é conhecido. Mas, pelo menos do ponto de vista da probabilidade puramente subjetiva, você não o conhece apenas porque em princípio pode ser conhecido. (Suponha que você não possa fazer a integral numérica.) Um bayesiano subjetivo considera tudo como uma variável aleatória com uma distribuição, incluindo .c c
De qualquer forma, o jornal
(com discussão) trata essencialmente do mesmo problema.
O exemplo que Chris Sims faz alusão em sua resposta é de natureza muito diferente.
fonte
O modelo estatístico proposto pode ser descrito como segue: Tem uma conhecida não negativo função integrável , e uma variável aleatória não negativo . As variáveis aleatórias devem ser condicionalmente independentes e distribuídas de forma idêntica, dado que , com densidade condicional , para .g:R→R C X1,…,Xn C=c fXi∣C(xi∣c)=cg(xi) c>0
Infelizmente, em geral, essa não é uma descrição válida de um modelo estatístico. O problema é que, por definição, deve ser uma densidade de probabilidade para quase todos os valores possíveis de , o que é, em geral, claramente falso. De fato, isso é verdade apenas para o valor único . Portanto, o modelo é especificado corretamente apenas no caso trivial quando a distribuição de está concentrada nesse valor específico. Obviamente, não estamos interessados neste caso. O que queremos é que a distribuição de seja dominada pela medida de Lebesgue, com um bom pdf .fXi∣C(⋅∣c) c c=(∫∞−∞g(x)dx)−1 C C π
Portanto, definindo , a expressão tomada como uma função de , para fixo , não corresponde a uma função de verossimilhança genuína.x=(x1,…,xn)
Tudo depois disso herda deste problema. Em particular, o posterior calculado com o Teorema de Bayes é falso. É fácil ver que: suponha que você tenha uma adequada antes Observe que . De acordo com o cálculo apresentado no exemplo, o posterior deve ser Mas se isso estiver certo, esse posterior seria sempre impróprio, porque diverge para cada tamanho de amostra .
Isso é impossível: sabemos que, se começarmos com um prior adequado, nosso posterior não poderá ser impróprio para todas as amostras possíveis (pode ser impróprio dentro de um conjunto de probabilidade preditiva prévia nula).
fonte
O exemplo é um pouco estranho e artificial. A razão pela qual a probabilidade dá errado é porque g é uma função conhecida . O único parâmetro desconhecido é c, que não faz parte da probabilidade. Além disso, como g é conhecido, os dados não fornecem informações sobre f. Quando você vê isso na prática? Portanto, o posterior é apenas proporcional ao anterior e todas as informações sobre c estão no anterior.
Ok, mas pense sobre isso. Os freqüentistas usam a máxima probabilidade e, portanto, os freqüentadores às vezes também dependem da função de probabilidade. Bem, o frequentista pode estimar parâmetros de outras maneiras que você pode dizer. Mas esse problema criado possui apenas um parâmetro c e não há informações nos dados sobre c. Como g é conhecido, não há problema estatístico relacionado a parâmetros desconhecidos que possam ser obtidos fora do período de dados.
fonte
Há uma ironia de que a maneira padrão de se fazer cálculos bayesianos é usar análises freqüentes de amostras de MCMC. Neste exemplo, podemos considerar que está intimamente relacionado à probabilidade marginal, que gostaríamos de calcular, mas seremos puristas bayesianos no sentido de tentar também fazer o cálculo de maneira bayesiana.c
Não é comum, mas é possível fazer isso integral em uma estrutura bayesiana. Isso envolve colocar um prior na função (na prática, um processo gaussiano), avaliar a função em alguns pontos, condicionar esses pontos e calcular uma integral sobre o posterior sobre . Nessa situação, a probabilidade envolve a avaliação de em vários pontos, mas é de outra maneira desconhecida; portanto, a probabilidade é bem diferente da probabilidade fornecida acima. O método é demonstrado neste artigo http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg() g() g() g()
Eu não acho que nada deu errado com a metodologia bayesiana. A probabilidade como escrita trata como conhecida em todos os lugares. Se fosse esse o caso, não haveria aspecto estatístico no problema. Se é considerado desconhecido, exceto em um número finito de pontos, a metodologia bayesiana funciona bem.g() g()
fonte
Poderíamos estender a definição de possíveis conhecidos (análoga à extensão de dados para permitir a falta de dados para dados observados mas perdidos) para incluir NULL (nenhum dado gerado).
Suponha que você tenha um anterior apropriado Agora defina o modelo de dados para x
Sec=(∫∞−∞g(x)dx)−1
Caso contrário,faXa∣C(xa∣c)=0
Portanto, o posterior seria 0 ou 1 (adequado), mas a probabilidade do modelo de dados acima não está disponível (porque você não pode determinar a condição necessária no modelo de dados).
Então você faz ABC.
Desenhe um "c" do anterior.
Agora aproxime por alguma integração numérica e mantenha “c” se essa aproximação - “c” <epsilon.(∫∞−∞g(x)dx)−1
Os c mantidos serão uma aproximação do verdadeiro posterior.
(A precisão da aproximação dependerá do epsilon e da suficiência do condicionamento nessa aproximação.)
fonte
fonte