Inspirado por um comentário desta pergunta :
O que consideramos "não informativo" em um prévio - e que informação ainda está contida em um prior supostamente não informativo?
Geralmente, vejo o anterior em uma análise em que é uma análise do tipo freqüentista que tenta emprestar algumas partes interessantes da análise bayesiana (seja uma interpretação mais fácil até o ponto mais importante a ser feito '), o anterior especificado é um distribuição uniforme entre os limites da medida de efeito, centrada em 0. Mas mesmo isso afirma uma forma para o anterior - apenas acontece que é plana.
Existe uma falta de informação melhor antes do uso?
Respostas:
[Aviso: como membro portador de cartão da Seção Objetiva Bayes do ISBA , minhas opiniões não são representativas de todos os estatísticos bayesianos !, muito pelo contrário ...]
Em resumo, não existe um prior com "realmente nenhuma informação".
De fato, o prior "não informativo" é, infelizmente, um nome impróprio. Qualquer distribuição anterior contém alguma especificação semelhante a alguma quantidade de informação. Mesmo (ou especialmente) o uniforme anterior. De fato, o uniforme anterior é simples para uma dada parametrização do problema. Se alguém muda para outra parametrização (mesmo uma delimitada), a mudança de variável jacobiana entra em cena e densidade e a anterior não é mais plana.
Como apontado por Elvis, a entropia máxima é uma abordagem preconizada para selecionar os chamados "não informativos" anteriores. No entanto, requer (a) informação suficiente em alguns momentos da distribuição anterior π ( ⋅ ) para especificar as restrições ∫ Θ h ( θ )h(θ) π(⋅) que leva ao MaxEnt anterior
π ∗ ( θ ) ∝ exp { λ T h ( θ ) }
e (b) a escolha preliminar de uma medida de referência d μ ( θ ) [em configurações contínuas] , uma escolha que traz o debate de volta à sua fase inicial! (Além disso, a parametrização das restrições (ou seja, a escolha de h ) afeta a forma doMaxEntresultanteanterior.)
José Bernardo produziu uma teoria original dos anteriores de referência, onde escolhe o prior, a fim de maximizar as informações trazidas pelos dados, maximizando a distância de Kullback entre o anterior e o posterior. Nos casos mais simples, sem parâmetros incômodos, a solução é a anterior de Jeffreys. Em problemas mais complexos, (a) uma escolha dos parâmetros de interesse (ou mesmo uma classificação de sua ordem de interesse) deve ser feita; (b) o cálculo do prior está bastante envolvido e requer uma sequência de conjuntos compactos incorporados para evitar problemas de impropriedade. (Veja, por exemplo, The Bayesian Choice para detalhes.)
Em uma reviravolta interessante, alguns pesquisadores fora da perspectiva bayesiana vêm desenvolvendo procedimentos chamados distribuições de confiança que são distribuições de probabilidade no espaço de parâmetros, construídas pela inversão de procedimentos baseados em frequência sem uma estrutura prévia explícita ou mesmo uma medida dominante nesse espaço de parâmetros. Eles argumentam que essa ausência de antecedentes bem definidos é uma vantagem, embora o resultado dependa definitivamente da escolha do procedimento baseado na frequência de inicialização
Em suma, não há "melhor" (ou até "melhor") escolha para "o" "não informativo" anterior. E considero que é assim que as coisas devem ser, porque a própria natureza da análise bayesiana implica que a escolha da distribuição anterior é importante. E que não há comparação de anteriores: um não pode ser "melhor" que o outro. (Pelo menos antes de observar os dados: uma vez observados, a comparação de anteriores se torna a escolha do modelo.) A conclusão de José Bernardo, Jim Berger, Dongchu Sun e muitos outros bayesianos "objetivos" é que existem referências de referência aproximadamente equivalentes que se pode usar quando estiver inseguro sobre as informações anteriores ou procurar uma inferência bayesiana de referência, sendo que alguns desses anteriores são parcialmente suportados por argumentos da teoria da informação
fonte
Uma propriedade atraente de priores não-informativos formais é a "propriedade de correspondência freqüentista": significa que um intervalo posterior de credibilidade de 95% também é (pelo menos aproximadamente) um intervalo de confiança de 95% no sentido freqüentador. Essa propriedade é válida para a referência de Bernardo antes, embora as fundações desses priores não informativos não sejam orientadas para a obtenção de uma boa propriedade de correspondência frequencialista. distribuição com uma enorme variação, não há garantia de que a propriedade de correspondência freqüentadora seja válida. Talvez a referência prévia de Bernardo não pudesse ser considerada a "melhor" escolha de um prior não informativo, mas pudesse ser considerada a mais bem-sucedida.
fonte
Primeiro, a tradução é boa!
Para E. LHOSTE: "O cálculo das probabilidades aplicadas à arte", Revue d'artillerie, tomo 91, maio a partir de 1923
Para A. RENYI: "Em uma nova teoria axiomática da probabilidade" Acta Mathematica, Académie des Sciences hongroises, tomo VI, fasc.3-4, 1955
Posso acrescentar: M. DUMAS: "Questões de probabilidade a priori de Lhoste", Sciences etécnicas de l'armement, 56, 4ème fascicule, 1982, pp 687-715
fonte
Concordo com a excelente resposta de Xi'an , apontando que não existe um único prior que seja "não informativo" no sentido de não levar informações. Para expandir esse tópico, eu queria ressaltar que uma alternativa é realizar a análise bayesiana dentro da estrutura de probabilidade imprecisa (ver esp. Walley 1991 , Walley 2000 ). Dentro dessa estrutura, a crença anterior é representada por um conjunto de distribuições de probabilidaden→∞
Esse arcabouço analítico foi axiomatizado por Walley como sua própria forma especial de análise probabilística, mas é essencialmente equivalente à análise bayesiana robusta usando um conjunto de anteriores, produzindo um conjunto correspondente de posteriores. Em muitos modelos, é possível definir um conjunto "não informativo" de anteriores que permite que alguns momentos (por exemplo, a média anterior) variem ao longo de todo o intervalo possível de valores, e isso produz resultados posteriores valiosos, onde os momentos posteriores são limitados mais firmemente. Essa forma de análise tem, sem dúvida, uma reivindicação melhor de ser chamada de "não informativa", pelo menos no que diz respeito a momentos que podem variar em toda a faixa permitida.
Suponha que observemos indicadores positivos nos dados. Em seguida, usando a regra de atualização para o modelo Bernoulli-beta, o conjunto posterior correspondente é:s=∑ni=1xi
O intervalo de valores possíveis para a expectativa posterior é:
O importante aqui é que, embora tenhamos começado com um modelo "não informativo" em relação ao valor esperado do parâmetro (a expectativa anterior variou sobre todos os valores possíveis), ainda assim terminamos com inferências posteriores que são informativas a respeito à expectativa posterior do parâmetro (eles agora variam sobre um conjunto mais restrito de valores). Como esse intervalo de valores é compactado em um único ponto, que é o verdadeiro valor de .n→∞ θ
fonte