Como as estatísticas bayesianas lidam com a ausência de priores?

16

Essa questão foi inspirada em duas interações recentes que eu tive, uma aqui no CV , a outra na economics.se.

Lá, eu havia postado uma resposta no conhecido "Paradoxo do Envelope" (lembre-se, não como a "resposta correta", mas como a resposta decorrente de suposições específicas sobre a estrutura da situação). Depois de um tempo, um usuário postou um comentário crítico e eu conversei tentando entender seu ponto de vista. Era óbvio que ele estava pensando a maneira Bayesian, e continuou falando sobre antecedentes -e, em seguida, ocorreu-me, e eu disse a mim mesmo: "Espere um minuto, que disse qualquer coisa sobre qualquer antes? No caminho eu ter formulado a problema, não há antecedentes aqui, eles simplesmente não entram em cena e não precisam ".

Recentemente, vi essa resposta aqui no CV, sobre o significado de Independência Estatística. Comentei ao autor que sua sentença

"... se os eventos são estatisticamente independentes, então (por definição) não podemos aprender sobre um observando o outro."

estava descaradamente errado. Em uma troca de comentários, ele continuou retornando à questão de (suas palavras)

"Aprendizagem" não significaria mudar nossas crenças sobre uma coisa com base na observação de outra? Se sim, a independência (definitivamente) não impede isso?

Mais uma vez, era óbvio que ele estava pensando da maneira bayesiana e que considerava óbvio que começamos com algumas crenças (isto é, a priori) , e então a questão é como podemos alterá-las / atualizá-las. Mas como a crença primeiro-primeiro é criada?

Como a ciência deve se conformar à realidade, noto que existem situações em que os seres humanos envolvidos não têm antecedentes (eu, por um lado, ando em situações sem antecedentes o tempo todo - e, por favor, não discuta que eu tenho antecedentes, mas eu só não percebemos, vamos nos poupar da psicanálise falsa aqui).

Desde que ouvi o termo "preliminares não informativos", divido minha pergunta em duas partes e tenho certeza de que os usuários aqui que são mais experientes na teoria bayesiana sabem exatamente o que estou prestes a perguntar:

Q1: A ausência de um equivalente anterior (no sentido teórico estrito) a um anterior não informativo?

Se a resposta para Q1 for "Sim" (com alguma elaboração, por favor), significa que a abordagem bayesiana é aplicável universalmente e desde o início , já que em qualquer caso o ser humano envolvido declara "não tenho antecedentes", podemos suplementar seu lugar é um prior que não é informativo para o caso em questão.

Mas se a resposta para o Q1 for "Não", o Q2 aparecerá:

Q2: se a resposta ao Q1 for "Não", isso significa que, nos casos em que não há antecedentes, a abordagem bayesiana não é aplicável desde o início e precisamos primeiro formar um prior por alguma maneira não bayesiana, para que possamos aplicar posteriormente a abordagem bayesiana?

Alecos Papadopoulos
fonte
2
Observarei que, como cientista, "nenhuma crença prévia" é uma afirmação bastante extremista ... semelhante a ver apenas a "neve" estática de um antigo aparelho de TV analógico sintonizado em uma estação morta e ouvir apenas ruído branco. Manifestamente, os cientistas não acreditam que nada no mundo esteja relacionado ou carregue informações sobre nada ... se acreditássemos que não seríamos cientistas. Certamente, a articulação bayesiana de "não-informativo" carrega crenças muito gerais sobre possibilidade e probabilidade.
Alexis
2
@ Alexis Depende da situação. Por exemplo, no "Paradoxo do envelope", o problema é, depois de analisar a quantidade que o envelope contém, se eu tinha ou não uma crença prévia sobre se o que estou vendo é a quantidade "grande" ou a quantidade "pequena". E não vejo nada extremo ao declarar aqui "não tenho nenhuma crença prévia sobre o assunto".
Alecos Papadopoulos
1
Você acredita anteriormente que existem alguns valores e que eles têm alguma distribuição entre envelopes? (Mesmo se você é agnóstico quanto à distribuição específica ou sua parametrização?)
Alexis
1
@ Alexis Claro, mas é formulado como conhecimento estrutural que existe independentemente das informações subseqüentes. Não é uma crença que precisa ser atualizada. E como essa formulação reflete a percepção de pelo menos um membro da raça humana (eu), é uma situação do mundo real, e a questão é se ela é considerada passível de análise Bayesiana ou não. Obviamente, para outra pessoa que declara "Eu tenho a seguinte crença anterior sobre a distribuição de quantidades entre envelopes", a aplicabilidade da abordagem bayesiana é óbvia.
Alecos Papadopoulos
2
Você parece acreditar que ou NÃO existe um prior ou existe o prior. Em uma modelagem bayesiana, a meu ver, a análise posterior é condicional ou relativa à escolha de A a priori e não a utilizo como absoluta. Meu prior é uma maneira natural de introduzir uma estrutura de probabilidade e medir no espaço de parâmetros.
Xian

Respostas:

11

Q1: A ausência de um equivalente anterior (no sentido teórico estrito) a um anterior não informativo?

Não.

Primeiro, não há definição matemática para um "prior não informativo". Esta palavra é usada apenas informalmente para descrever alguns anteriores.

Por exemplo, o prior de Jeffrey costuma ser chamado de "não informativo". Este prior generaliza o uniforme uniforme para problemas invariantes da tradução. O prior de Jeffrey, de alguma forma, se adapta à geometria Riemanniana (teórica da informação) do modelo e, portanto, é independente da parametrização, dependente apenas da geometria do coletor (no espaço de distribuições) que é o modelo. Pode ser percebido como canônico, mas é apenas uma escolha. É apenas o uniforme anterior, de acordo com a estrutura de Riemann. Não é absurdo definir "não informativo = uniforme" como uma simplificação da questão. Isso se aplica a muitos casos e ajuda a fazer uma pergunta clara e simples.

Fazer inferência bayesiana sem prévia é como "como posso adivinhar sem nenhuma suposição sobre a distribuição de X apenas sabendo que X tem valores em [ 0 ; 1 ] ?" Esta pergunta obviamente não faz sentido. Se você responder 0,5, provavelmente terá uma distribuição em mente.E(X)XX[0;1]

As abordagens bayesiana e freqüentista simplesmente respondem a perguntas diferentes. Por exemplo, sobre estimadores, talvez o mais simples:

  • Frequentista (por exemplo): "Como posso estimar modo que minha resposta tenha o menor erro (apenas a média acima de x ) no pior caso (acima de θ )?". Isso leva a estimadores minimax.θxθ

  • Bayesiano: "Como posso estimar modo que minha resposta tenha o menor erro médio (acima de θ )?". Isso leva aos estimadores de Bayes. Mas a questão está incompleta e deve especificar "média em que sentido?". Assim, a pergunta só está completa quando contém um prior.θθ

De alguma forma, o frequentista visa o controle do pior caso e não precisa de um prévio. O bayesiano visa o controle médio e exige que um anterior diga "média em que sentido?".

Q2: se a resposta ao Q1 for "Não", isso significa que, nos casos em que não há antecedentes, a abordagem bayesiana não é aplicável desde o início e precisamos primeiro formar um prior por alguma maneira não bayesiana, para que possamos aplicar posteriormente a abordagem bayesiana?

Sim.

XN(μ,1)μ

Problemas verdadeiros com especificações anteriores acontecem em problemas mais complicados, na minha opinião. O importante aqui é entender o que um certo prior diz.

Benoit Sanchez
fonte
2
(+1) Obrigado, isso é realmente informativo.
Alecos Papadopoulos
4

Antes de tudo, a abordagem bayesiana é frequentemente usada porque você deseja incluir conhecimento prévio em seu modelo para enriquecê-lo. Se você não tem nenhum conhecimento prévio, atenha-se aos chamados pré-informativos semanais "não informativos" ou semanais. Observe que o uniforme anterior não é "desinformativo" por definição, pois a suposição sobre uniformidade é uma suposição. Não existe uma prévia verdadeiramente não informativa. Há casos em que "poderia ser qualquer coisa" é uma suposição prévia "não informativa" razoável, mas também há casos em que afirma que "todos os valores são igualmente prováveis" é uma suposição muito forte e irracional. Por exemplo, se você assumisse que minha altura pode estar entre 0 cm e 3 metros, com todos os valores igualmente prováveis ​​a priori, isso não seria uma suposição razoável e daria muito peso aos valores extremos, então isso pode distorcer seu traseiro.

Por outro lado, Bayesian argumentaria que não há realmente situações em que você não tenha nenhum conhecimento ou crença anterior. Você sempre pode assumir algo e, como ser humano, está fazendo isso o tempo todo (psicólogos e economistas comportamentais fizeram toneladas de pesquisas sobre esse assunto). Todo o alarido bayesiano com os anteriores é sobre a quantificação desses preconceitos e a declaração explícita em seu modelo, uma vez que a inferência bayesiana consiste em atualizar suas crenças .

É fácil apresentar argumentos "sem premissas prévias", ou anteriores uniformes, para problemas abstratos, mas para problemas da vida real você teria conhecimento prévio. Se você precisasse fazer uma aposta sobre a quantidade de dinheiro em um envelope, saberia que a quantia precisa ser não-negativa e finita. Você também pode adivinhar qual é o limite superior para a quantia possível de dinheiro, dado seu conhecimento sobre as regras do concurso, fundos disponíveis para o adversário, conhecimento sobre o tamanho físico do envelope e a quantia que poderia caber fisicamente nele, etc. Você também pode fazer algumas suposições sobre a quantidade de dinheiro que seu adversário pode estar disposto a colocar no envelope e possivelmente perder. Há muitas coisas que você saberia como base para o seu prior.

Tim
fonte
2
@AlecosPapadopoulos Desculpe por não dizer o que você queria ouvir, mas acredito que isso faz parte da resposta à sua pergunta. Em relação ao Q1, obviamente, assumir o uniforme anterior não é o mesmo que não o assumir antes, pois você fez uma suposição. Se você não quiser usar prévios, use a máxima probabilidade ou a abordagem empírica de Bayes.
Tim
2
O que eu "queria ouvir"? Pelo que entendi, quando uma pessoa coloca uma pergunta aqui, é razoavelmente esperado que a resposta seja sobre a questão. Não há nada em particular que eu "queira ouvir" (também não tenha antecedentes aqui), apenas procurei respostas para perguntas específicas e meu comentário foi sobre não ver de que maneira sua resposta abordou minhas perguntas. Mas no seu comentário, acho que há algo realmente relevante: "abordagem empírica de Bayes"? Você pode mencionar / apontar para alguma literatura?
Alecos Papadopoulos
3
@AlecosPapadopoulos empírico Bayes está escolhendo seus antecedentes com base em dados (ou seja, trapaça). Você pode começar com a Wikipedia ou artigos de Efron (facilmente pesquisável no Google scholar).
Tim
2
Suponha que você começou com um problema na segunda-feira e teve um anterior, digamos, normal normal. Então, você os conecta aos dados, executa a análise, aprende algo. Na terça-feira, você não pode mais usar isso antes, porque já aprendeu alguma coisa. Então, você precisa conectar um anterior diferente, realmente. Assim, em estritamente bayesiano, os priores são de uso único. Você literalmente pode executá-los através do software apenas UMA VEZ. No momento em que você obtém os resultados, o anterior expira, a menos que você não tenha aprendido NADA. Assim, em sentido prático abordagem bayesiana é inutilizável em sua forma pura, todos os Bayesians estão constantemente a enganar-se
Aksakal
3
@ Akksakal Mas por que é inválido usar, na terça-feira, como meu novo prior, o posterior que obtive na segunda-feira? Do jeito que eu digo, é um procedimento seqüencial totalmente válido. Então, eu não entendo por que você escreve "Bayesianos estão constantemente se enganando".
Alecos Papadopoulos
3

pergunta 1 Acho que a resposta provavelmente é não. Minha razão é que realmente não temos uma definição para "não informativo", exceto para, de alguma forma, medir a distância da resposta final de algum modelo / probabilidade arbitrariamente informativa. Muitos prévios não informativos são validados contra exemplos "intuitivos", onde já temos "o modelo / probabilidade" e "a resposta" em mente. Em seguida, pedimos ao não informativo antes de nos dar a resposta que queremos.

Meu problema com isso é que tenho dificuldade em acreditar que alguém pode ter um modelo ou estrutura de modelo realmente bom e bem informado para sua população e, simultaneamente, não ter "nenhuma informação" sobre valores de parâmetros prováveis ​​e improváveis ​​para esse modelo. Por exemplo, usando regressão logística, consulte "UMA DISTRIBUIÇÃO PRÉVIA PADRÃO INFORMATIVA FRACAMENTE. PARA MODELOS LOGÍSTICOS E OUTROS MODELOS DE REGRESSÃO"

Penso que o anterior uniforme discreto é o único que poderíamos dizer razoavelmente como o "primeiro-primeiro" prior. Mas você se depara com problemas de usá-lo, pensando que não tem "informações", mas, de repente, tendo reações a respostas "não intuitivas" (dica: se você não gosta de uma resposta bayesiana - pode ter deixado as informações de fora ou antes). probabilidade!). Outro problema que você encontra é obter a discretização certa para o seu problema. E mesmo pensando nisso, você precisa saber o número de valores discretos para aplicar o uniforme discreto anterior.

Outra propriedade a considerar para o seu prior é o "comportamento da cauda" em relação à probabilidade que você está usando.

para a pergunta 2

Conceitualmente, não vejo nada de errado em especificar uma distribuição sem o uso de uma prévia ou probabilidade. Você pode iniciar um problema dizendo "meu pdf é ... e eu quero calcular ... escreva este pdf". Então você está criando uma restrição para o previsível, o previsível e a probabilidade anterior. O método bayesiano é para quando você tem uma probabilidade prévia e uma probabilidade e deseja combiná-las em uma distribuição posterior.

Provavelmente é uma questão de esclarecer quais são suas probabilidades. Em seguida, o argumento muda para "este pdf / pmf representa o que eu digo que representa?" - qual é o espaço em que você deseja estar, eu acho. No seu exemplo, você está dizendo que a distribuição única reflete todas as informações disponíveis - não há "anterior" porque já está contida (implicitamente) na distribuição que você está usando.

U(0,1)Bin(n,p)Beta(0,0)21

no chamado comentário descaradamente errado

Para ser sincero, eu ficaria muito interessado em ver como qualquer número de observação poderia ser usado para prever uma observação "estatisticamente independente". Como exemplo, se eu disser, gerarei 100 variáveis ​​normais padrão. Dou-lhe 99 e faço com que você me dê a sua melhor previsão para a 100ª. Eu digo que você não pode fazer uma previsão melhor para o centésimo que 0. Mas é o mesmo que você preveria para o centésimo se eu não lhe desse dados. Portanto, você não aprende nada com os 99 pontos de dados.

No entanto, se eu disser que foi "alguma distribuição normal", você poderá usar os 99 pontos de dados para estimar os parâmetros. Agora, os dados não são mais "estatisticamente independentes", porque aprendemos mais sobre a estrutura comum à medida que observamos mais dados. Sua melhor previsão agora usa todos os 99 pontos de dados

probabilityislogic
fonte
1
(+1) Obrigado por sua resposta atenciosa. Um esclarecimento sobre a afirmação "flagrantemente errada": foi feita porque "aprender" (e estou falando sobre o significado geral da palavra) é um conceito muito mais amplo do que "prever". Se dois eventos são estruturalmente semelhantes, podemos aprender coisas relacionadas a um estudando o outro, mesmo que sejam estatisticamente independentes. Você também fala sobre a "estrutura comum" em sua resposta, é tudo o que existe.
Alecos Papadopoulos
@Alecos Papadopoulos - o ponto é que você não pode aprender sem tornar as coisas estatisticamente dependentes. Tomando meu exemplo, o que é aprendível no cenário 1. Além disso, a estrutura comum precisa ser desconhecida, não apenas presente.
probabilityislogic
1
Comentando a última frase do seu post, o fato de podermos aprender algo sobre a estrutura comum, como você aponta, não torna as variáveis ​​aleatórias envolvidas "estatisticamente dependentes". Eles permanecem "independentes em probabilidade", que é outra maneira de dizer "estatisticamente independente", um conceito que tem um significado muito preciso matematicamente. O fato de eles compartilharem características comuns (aqui, seu intervalo é caracterizado pela mesma distribuição de probabilidade), não os torna estatisticamente dependentes.
Alecos Papadopoulos
Seu fraseado "independente de probabilidade" não está claro para mim, e suspeito que seja por isso que discordo do que você está dizendo. Se isso for substituído por "condicionalmente independente" ou "intercambiável", o que você diz faz sentido. Também ainda estou esperando por algo que possa ser aprendido com os RVs normais padrão da 99 iid, que ajudam na centésima (não precisa ser sobre previsão).
probabilityislogic
1
@probabilisticlogic "Independente em probabilidade" é uma expressão que pode ser encontrada geralmente em trabalhos mais antigos e significa o que independência estatística significa como expressa por meio de funções de distribuição. Os 99 rv me permitirão aprender todos os tipos de propriedades, características, etc., do 100º, momentos, quantis, etc.
Alecos Papadopoulos
3

Esta é apenas uma breve observação, além de outras excelentes respostas. Freqüentemente, ou pelo menos algumas vezes, é um tanto arbitrário (ou convencional) que parte da informação que entra em uma análise estatística é chamada de dados e qual parte é chamada anteriormente . Ou, de maneira mais geral, podemos dizer que as informações em uma análise estatística vêm de três fontes: o modelo , os dados e o anterior . Em alguns casos, como modelos lineares ou glm, a separação é bastante clara, pelo menos convencionalmente.

Vou reutilizar um exemplo da Estimativa de Máxima Verossimilhança (MLE) em termos leigos para ilustrar meu argumento. Digamos que um paciente entre no consultório médico, com alguns problemas médicos que se tornam difíceis de diagnosticar. Este médico não viu algo parecido antes. Então, conversando com o paciente, ele apresenta algumas informações novas: esse paciente visitou a África tropical recentemente. Então, parece ao médico que isso pode ser malária ou alguma outra doença tropical. Mas note que esta informação é claramente para nós dados, mas pelo menos em muitos modelos estatísticos que poderiam ser usados, ela entrará na análise na forma de uma distribuição anterior, uma distribuição anterior que dá maior probabilidade a algumas doenças tropicais. Mas poderíamos, talvez, criar um modelo (maior) e mais completo, onde essas informações entrem como dados. Portanto, pelo menos em parte, os dados de distinção / prior são convencionais.

Estamos acostumados a aceitar esta convenção devido à nossa ênfase em algumas classes de modelos convencionais. Mas, no esquema mais amplo, fora do mundo dos modelos estatísticos estilizados, a situação é menos clara.

kjetil b halvorsen
fonte