História da teoria prévia não informativa

24

Estou escrevendo um pequeno ensaio teórico para um curso de Estatística Bayesiana (em um Mestrado em Economia) sobre antecedentes não informativos e estou tentando entender quais são as etapas no desenvolvimento dessa teoria.

Até agora, minha linha do tempo é composta por três etapas principais: princípio da indiferença de Laplace (1812), priores não invariantes (Jeffreys (1946)), referência de Bernardo anterior (1979).

Na minha revisão de literatura, entendi que o princípio da indiferença (Laplace) foi a primeira ferramenta usada para representar a falta de informações prévias, mas o requisito que faltava de invariância levou ao seu abandono até os anos 40, quando Jeffreys introduziu seu método, que tem o propriedade desejada de invariância. O surgimento de paradoxos de marginalização devido ao uso descuidado do anterior impróprio na década de 70 levou Bernardo a elaborar sua teoria prévia de referência para lidar com essa questão.

Ao ler a literatura, cada autor cita contribuições diferentes: entropia máxima de Jaynes, probabilidade traduzida por dados de Box e Tiao, Zellner, ...

Na sua opinião, quais são as etapas cruciais que estou perdendo?

EDIT : adiciono minhas referências (principais), se alguém precisar:

1) A seleção do prior por regras formais, Kass, Wasserman

2) Um catálogo de priores não informativos, Yang, Berger

3) Bayesianos não-informativos priorizam a interpretação e os problemas de construção e aplicações

Doutoramento
fonte
10
Depois de terminar esse ensaio teórico, você poderia ligá-lo aqui?
Nikolas Rieble 18/11/19
2
Seria ótimo se você pudesse responder a sua própria pergunta resumindo sua tese.
Tim
3
Eu vinculei este artigo antes, mas a história épica da máxima verossimilhança cobre a "lacuna" histórica entre Laplace e Jeffrey: onde o trabalho de Gauss, Hotelling, Fisher, Bernoulli e outros apontou a estimativa para a máxima verossimilhança durante esse período.
18116 AdamOf
2
@alessandro descreve como a abordagem laplaciana foi mantida por basicamente um século depois que Gauss desenvolveu e usou impressões uniformes (concebendo-as como não informativas). Pearson e Kristine Smith rejeitaram ML porque a inferência resultante não lidava com probabilidades, como um bayesiano desejaria.
19416 AdamO
7
Minuto (pedante, se você preferir), mas ponto possivelmente útil: Jeffreys = (Professor Sir) Harold Jeffreys, matemático aplicado britânico, geofísico e muito mais; ele me explicou em uma carta há 40 anos que preferia o possessivo de Jeffreys porque o de Jeffreys estava sujeito a mutação ao de Jeffrey bastante incorreto. Acima, temos um exemplo! (Não ajuda que Richard C. Jeffrey, filósofo americano, uma pessoa completamente diferente, também escreveu sobre probabilidade.)
Nick Cox

Respostas:

13

O que você parece estar perdendo é o início da história. Você pode conferir o artigo de Fienberg (2006) Quando a inferência bayesiana se tornou "bayesiana"? . Primeiro, ele percebe que Thomas Bayes foi o primeiro a sugerir o uso de um uniforme antes:

Na linguagem estatística atual, o artigo de Bayes introduz uma distribuição prévia uniforme no parâmetro binomial, , raciocinando por analogia com uma "mesa de bilhar" e baseando-se na forma da distribuição marginal da variável aleatória binomial, e não no princípio de "razão insuficiente", como muitos outros afirmaram.θ

Pierre Simon Laplace foi a próxima pessoa a discutir o assunto:

θ

f(θx1,x2,,xn)f(x1,x2,,xnθ)

θ

Além disso, Carl Friedrich Gauss também se referiu ao uso de um prévio não informativo, conforme observado por David e Edwards (2001) em seu livro Annotated Readings in the History of Statistics :

h

f(h|x)f(x|h)

h[0,)

e, como observa Fienberg (2006), a "probabilidade inversa" (e o que se segue, usando anteriores uniformes) era popular na virada do século XIX

tμμh=σ1

A história inicial da abordagem bayesiana também é revisada por Stigler (1986) em seu livro A história da estatística: A medição da incerteza antes de 1900 .

Na sua breve resenha, você também não parece mencionar Ronald Aylmer Fisher (novamente citado após Fienberg, 2006):

Fisher se afastou dos métodos inversos e, em direção à sua própria abordagem de inferência, chamou de "probabilidade", um conceito que alegou ser distinto da probabilidade. Mas a progressão de Fisher nesse sentido foi lenta. Stigler (164) apontou que, em um manuscrito não publicado, datado de 1916, Fisher não distinguiu entre probabilidade e probabilidade inversa com um plano anterior, mesmo quando mais tarde ele fez a distinção que alegava ter entendido naquele momento.

Jaynes (1986) forneceu seu próprio artigo de revisão curto Bayesian Methods: General Background. Um tutorial introdutório que você pode verificar, mas não se concentra em anteriores não informativos. Além disso, como observado por AdamO , você deve definitivamente ler A história épica da máxima verossimilhança, de Stigler (2007).

Também vale ressaltar que não existe um "prior não informativo" ; muitos autores preferem falar em "prioros vagos" ou "anteriores informativos semanais" .

Uma revisão teórica é fornecida por Kass e Wasserman (1996) em A seleção de distribuições prévias por regras formais , que detalham mais a escolha de anteriores, com ampla discussão sobre o uso de anteriores não informativos.

Tim
fonte
Esse era o tipo de resposta que eu estava procurando. Obrigado!
Doutorando 3/16/16
Acho que Fienberg estendeu o orgulho dos bayesianos muito longe. Pessoalmente, não gosto de usar a "probabilidade inversa" para definir qualquer coisa, porque ela não parece ser consistente com o quadro de geometria integral proposto por Adler e Taylor. Qualquer bom procedimento estatístico deve ter sua correspondência matemática, a probabilidade inversa é tão distorcida que você dificilmente pode analisá-lo quando o problema é um pouco mais sensível pela minha experiência.
usar o seguinte código
@ Henry.L ... no entanto, faz parte da história do pensamento estatístico :) Observe também que não é apenas Fienberg quem fornece esses exemplos. Todo o rebelde anti-probabilidade inversa e anti-Bayesiano começou porque se tornou bastante popular.
Tim
@ Tim Sim, acho que é o que Thomas Kuhn chamou de "mudança de esquema" e também conhecido como "... os oponentes acabam morrendo e uma nova geração cresce" :)).
precisa saber é o seguinte
5

Alguns comentários sobre falhas de antecedentes não informativos (provavelmente não informativos) são provavelmente uma boa ideia, pois a investigação de tais falhas ajudou no desenvolvimento do conceito de antecedentes não informativos na história.

Você pode querer adicionar alguns comentários sobre os inconvenientes / falhas da adoção de anteriores não informativos. Entre muitas críticas, aponto duas.

(1) Geralmente, a adoção de preliminares não informativos apresenta problemas de consistência, especialmente quando a distribuição do modelo tem comportamento multimodal.

Esse problema não é exclusivo dos anteriores não informativos, mas é compartilhado por muitos outros procedimentos bayesianos, conforme apontado no artigo a seguir, juntamente com suas discussões.

Diaconis, Persi e David Freedman. "Sobre a consistência das estimativas de Bayes." The Annals of Statistics (1986): 1-26.

Atualmente, o prior não informativo não é mais um foco de pesquisa. Parece que há mais interesse em escolhas mais flexíveis do anterior em contextos não paramétricos. Exemplos são o processo gaussiano anterior no procedimento não paramétrico de Bayes ou um modelo flexível como uma mistura de anteriores de Dirichlet, como em

Antoniak, Charles E. "Misturas de processos de Dirichlet com aplicações a problemas não paramétricos bayesianos". The annals of statistics (1974): 1152-1174.

Mas, novamente, esse prioritário tem seus próprios problemas de consistência.

(2) A maioria dos chamados "antecedentes não informativos" não está bem definida.

Este é provavelmente o problema mais evidente associado aos antecedentes não informativos durante o seu desenvolvimento.

Um exemplo é que a definição de limite de prior não informativo como limite de uma sequência de prioros próprios levará a um paradoxo de marginalização. Como você mencionou, a referência anterior de Bernardo também tem o problema de que Berger nunca provou que sua definição formal é independente de sua construção / partição. Veja a discussão em

Berger, James O., José M. Bernardo e Dongchu Sun. "A definição formal de referências anteriores." The Annals of Statistics (2009): 905-938.

Uma melhor definição sobre o prior de Jeffreys que é bem definida é que ele é escolhido para ser um prior, de modo que seja invariável sob certa tradução paralela sobre o coletor Riemanniano equipado com a métrica de informações de Fisher, mas mesmo isso não resolve o primeiro problema.

Você também pode ler minha explicação sobre o paradoxo da marginalização .

Henry.L
fonte
Este é um excelente post e nenhum de nós pensou nisso. Bom trabalho.
Dave Harris
Fiz várias pequenas edições na expressão sem tentar alterar nenhum significado ou implicação. Verifique se o seu significado é invariável na edição.
Nick #
4

Eu teria postado nos comentários, mas acho que ainda não tenho reputação. A única coisa que falta, não nos comentários já marcados, é um caso especial de priores não informativos cujas origens eu tentei caçar e não encontrei. Pode preceder o trabalho de Jeffreys.

Para a distribuição normal, eu vi a distribuição de Cauchy usada como um antes não informativo para dados com uma probabilidade normal. O motivo é que a precisão da distribuição de Cauchy é zero, onde a precisão é uma dividida pela variação. Ele cria um conjunto bastante peculiar de conceitos contraditórios.

1πΓΓ2+(xμ)2.

Dependendo de como você define a integral, não há variação definida ou ela vai para o infinito na mediana, o que implica que a precisão vai para zero. Na atualização conjugada, que não se aplicaria aqui, você adiciona as precisões ponderadas. Eu acho que é por isso que essa idéia de um prior adequado com uma densidade perfeitamente imprecisa se forma. Também é equivalente ao t de Student com um grau de liberdade, que também pode ser a fonte.

2Γ

As duas primeiras referências à distribuição de Cauchy são como funções de probabilidade. O primeiro de uma carta de Poisson a Laplace como uma exceção ao Teorema do Limite Central. O segundo foi em artigos de jornal de 1851 em uma batalha entre Bienayme e Cauchy sobre a validade dos mínimos quadrados comuns.

Encontrei referências ao seu uso como um não informativo antes dos anos 80, mas não consigo encontrar um primeiro artigo ou livro. Também não encontrei uma prova de que não seja informativo. Encontrei uma citação no livro de Jeffreys de 1961 sobre teoria das probabilidades, mas nunca o solicitei através de empréstimo entre bibliotecas.

Pode ser simplesmente fracamente informativo. A região de densidade mais alta de 99,99% possui 1272 faixas semi-interquartis de largura.

Espero que ajude. É um caso especial estranho, mas você vê isso aparecer em vários documentos de regressão. Satisfaz os requisitos para uma ação da Bayes por ser um prior adequado, influenciando minimamente a localização e a escala.

Dave Harris
fonte