O que é um “prior não informativo”? Podemos ter um com realmente nenhuma informação?

73

Inspirado por um comentário desta pergunta :

O que consideramos "não informativo" em um prévio - e que informação ainda está contida em um prior supostamente não informativo?

Geralmente, vejo o anterior em uma análise em que é uma análise do tipo freqüentista que tenta emprestar algumas partes interessantes da análise bayesiana (seja uma interpretação mais fácil até o ponto mais importante a ser feito '), o anterior especificado é um distribuição uniforme entre os limites da medida de efeito, centrada em 0. Mas mesmo isso afirma uma forma para o anterior - apenas acontece que é plana.

Existe uma falta de informação melhor antes do uso?

Fomite
fonte
2
Talvez você aprecie o chamado Princípio da Máxima Entropia . Não quero expandir isso em uma resposta completa - o artigo da Wikipedia parece ser de boa qualidade. Estou bastante confiante de que alguns colaboradores o expandirão muito melhor do que eu.
Elvis

Respostas:

93

[Aviso: como membro portador de cartão da Seção Objetiva Bayes do ISBA , minhas opiniões não são representativas de todos os estatísticos bayesianos !, muito pelo contrário ...]

Em resumo, não existe um prior com "realmente nenhuma informação".

De fato, o prior "não informativo" é, infelizmente, um nome impróprio. Qualquer distribuição anterior contém alguma especificação semelhante a alguma quantidade de informação. Mesmo (ou especialmente) o uniforme anterior. De fato, o uniforme anterior é simples para uma dada parametrização do problema. Se alguém muda para outra parametrização (mesmo uma delimitada), a mudança de variável jacobiana entra em cena e densidade e a anterior não é mais plana.

Como apontado por Elvis, a entropia máxima é uma abordagem preconizada para selecionar os chamados "não informativos" anteriores. No entanto, requer (a) informação suficiente em alguns momentos da distribuição anterior π ( ) para especificar as restrições Θ h ( θ )h(θ)π() que leva ao MaxEnt anterior π ( θ ) exp { λ T h ( θ ) } e (b) a escolha preliminar de uma medida de referência d μ ( θ ) [em configurações contínuas] , uma escolha que traz o debate de volta à sua fase inicial! (Além disso, a parametrização das restrições (ou seja, a escolha de h ) afeta a forma doMaxEntresultanteanterior.)

Θh(θ)dπ(θ)=h0
π(θ)exp{λTh(θ)}
dμ(θ)h

José Bernardo produziu uma teoria original dos anteriores de referência, onde escolhe o prior, a fim de maximizar as informações trazidas pelos dados, maximizando a distância de Kullback entre o anterior e o posterior. Nos casos mais simples, sem parâmetros incômodos, a solução é a anterior de Jeffreys. Em problemas mais complexos, (a) uma escolha dos parâmetros de interesse (ou mesmo uma classificação de sua ordem de interesse) deve ser feita; (b) o cálculo do prior está bastante envolvido e requer uma sequência de conjuntos compactos incorporados para evitar problemas de impropriedade. (Veja, por exemplo, The Bayesian Choice para detalhes.)

Em uma reviravolta interessante, alguns pesquisadores fora da perspectiva bayesiana vêm desenvolvendo procedimentos chamados distribuições de confiança que são distribuições de probabilidade no espaço de parâmetros, construídas pela inversão de procedimentos baseados em frequência sem uma estrutura prévia explícita ou mesmo uma medida dominante nesse espaço de parâmetros. Eles argumentam que essa ausência de antecedentes bem definidos é uma vantagem, embora o resultado dependa definitivamente da escolha do procedimento baseado na frequência de inicialização

Em suma, não há "melhor" (ou até "melhor") escolha para "o" "não informativo" anterior. E considero que é assim que as coisas devem ser, porque a própria natureza da análise bayesiana implica que a escolha da distribuição anterior é importante. E que não há comparação de anteriores: um não pode ser "melhor" que o outro. (Pelo menos antes de observar os dados: uma vez observados, a comparação de anteriores se torna a escolha do modelo.) A conclusão de José Bernardo, Jim Berger, Dongchu Sun e muitos outros bayesianos "objetivos" é que existem referências de referência aproximadamente equivalentes que se pode usar quando estiver inseguro sobre as informações anteriores ou procurar uma inferência bayesiana de referência, sendo que alguns desses anteriores são parcialmente suportados por argumentos da teoria da informação

Xi'an
fonte
14
(+1) Seu livro? Oh maldito. I assim tem 387 perguntas para você :)
Elvis
4
(+1) Para um objetivo (nada menos!), Resposta direta.
cardeal
2
+1 Obrigado por uma visão geral boa e bem informada dos problemas.
whuber
2
Uma resposta excelente. Obrigado. E mais um livro para entrar na lista de desejos.
fomite
11
É quase injusto. Afinal, ele é Christian Robert! Só brincando. Ótima resposta. E eu adoraria que o @ Xi'an pudesse expandi-lo em um post em seu blog, especialmente sobre o quanto a parametrização é importante para o tópico de priores "não informativos".
Manoel Galdino
16

Uma propriedade atraente de priores não-informativos formais é a "propriedade de correspondência freqüentista": significa que um intervalo posterior de credibilidade de 95% também é (pelo menos aproximadamente) um intervalo de confiança de 95% no sentido freqüentador. Essa propriedade é válida para a referência de Bernardo antes, embora as fundações desses priores não informativos não sejam orientadas para a obtenção de uma boa propriedade de correspondência frequencialista. distribuição com uma enorme variação, não há garantia de que a propriedade de correspondência freqüentadora seja válida. Talvez a referência prévia de Bernardo não pudesse ser considerada a "melhor" escolha de um prior não informativo, mas pudesse ser considerada a mais bem-sucedida.

Stéphane Laurent
fonte
9

(,)(0,)pdp/p(1p)π(0,1)

pdp/p(1p)


Primeiro, a tradução é boa!

Para E. LHOSTE: "O cálculo das probabilidades aplicadas à arte", Revue d'artillerie, tomo 91, maio a partir de 1923

Para A. RENYI: "Em uma nova teoria axiomática da probabilidade" Acta Mathematica, Académie des Sciences hongroises, tomo VI, fasc.3-4, 1955

Posso acrescentar: M. DUMAS: "Questões de probabilidade a priori de Lhoste", Sciences etécnicas de l'armement, 56, 4ème fascicule, 1982, pp 687-715

Heymann
fonte
3
É possível reescrevê-lo em inglês, mesmo se for mal feito por meio de um serviço de tradução automatizada como o Google Translate? Outros usuários, mais fluentes em francês e inglês, podem ajudar a copiá-lo e editá-lo.
Silverfish
3
logσlogp/(1p)(0,)(0,1)(0,)(0,1)R
2
log()logit()
3

Concordo com a excelente resposta de Xi'an , apontando que não existe um único prior que seja "não informativo" no sentido de não levar informações. Para expandir esse tópico, eu queria ressaltar que uma alternativa é realizar a análise bayesiana dentro da estrutura de probabilidade imprecisa (ver esp. Walley 1991 , Walley 2000 ). Dentro dessa estrutura, a crença anterior é representada por um conjunto de distribuições de probabilidaden

Esse arcabouço analítico foi axiomatizado por Walley como sua própria forma especial de análise probabilística, mas é essencialmente equivalente à análise bayesiana robusta usando um conjunto de anteriores, produzindo um conjunto correspondente de posteriores. Em muitos modelos, é possível definir um conjunto "não informativo" de anteriores que permite que alguns momentos (por exemplo, a média anterior) variem ao longo de todo o intervalo possível de valores, e isso produz resultados posteriores valiosos, onde os momentos posteriores são limitados mais firmemente. Essa forma de análise tem, sem dúvida, uma reivindicação melhor de ser chamada de "não informativa", pelo menos no que diz respeito a momentos que podem variar em toda a faixa permitida.


X1,...,Xn|θIID Bern(θ)θμκ>1

π0(θ|μ,κ)=Beta(θ|μ,κ)=Beta(θ|α=μ(κ1),β=(1μ)(κ1)).

E(θ)=μV(θ)=μ(1μ)/κ

P0{Beta(μ,κ)|0μ1}.

Suponha que observemos indicadores positivos nos dados. Em seguida, usando a regra de atualização para o modelo Bernoulli-beta, o conjunto posterior correspondente é:s=i=1nxi

Px={Beta(s+μ(κ1)n+κ1,n+κ)|0μ1}.

O intervalo de valores possíveis para a expectativa posterior é:

sn+κ1E(θ|x)s+κ1n+κ1.

O importante aqui é que, embora tenhamos começado com um modelo "não informativo" em relação ao valor esperado do parâmetro (a expectativa anterior variou sobre todos os valores possíveis), ainda assim terminamos com inferências posteriores que são informativas a respeito à expectativa posterior do parâmetro (eles agora variam sobre um conjunto mais restrito de valores). Como esse intervalo de valores é compactado em um único ponto, que é o verdadeiro valor de .nθ

Restabelecer Monica
fonte
+1. Interessante. O que é kappa na última equação? Deve ser estrela kappa?
ameba diz Restabelecer Monica
Eu editei para remover a variação no para dar um modelo mais simples. Deve ficar tudo bem agora. κ
Restabelecer Monica