Essa questão foi inspirada em duas interações recentes que eu tive, uma aqui no CV , a outra na economics.se.
Lá, eu havia postado uma resposta no conhecido "Paradoxo do Envelope" (lembre-se, não como a "resposta correta", mas como a resposta decorrente de suposições específicas sobre a estrutura da situação). Depois de um tempo, um usuário postou um comentário crítico e eu conversei tentando entender seu ponto de vista. Era óbvio que ele estava pensando a maneira Bayesian, e continuou falando sobre antecedentes -e, em seguida, ocorreu-me, e eu disse a mim mesmo: "Espere um minuto, que disse qualquer coisa sobre qualquer antes? No caminho eu ter formulado a problema, não há antecedentes aqui, eles simplesmente não entram em cena e não precisam ".
Recentemente, vi essa resposta aqui no CV, sobre o significado de Independência Estatística. Comentei ao autor que sua sentença
"... se os eventos são estatisticamente independentes, então (por definição) não podemos aprender sobre um observando o outro."
estava descaradamente errado. Em uma troca de comentários, ele continuou retornando à questão de (suas palavras)
"Aprendizagem" não significaria mudar nossas crenças sobre uma coisa com base na observação de outra? Se sim, a independência (definitivamente) não impede isso?
Mais uma vez, era óbvio que ele estava pensando da maneira bayesiana e que considerava óbvio que começamos com algumas crenças (isto é, a priori) , e então a questão é como podemos alterá-las / atualizá-las. Mas como a crença primeiro-primeiro é criada?
Como a ciência deve se conformar à realidade, noto que existem situações em que os seres humanos envolvidos não têm antecedentes (eu, por um lado, ando em situações sem antecedentes o tempo todo - e, por favor, não discuta que eu tenho antecedentes, mas eu só não percebemos, vamos nos poupar da psicanálise falsa aqui).
Desde que ouvi o termo "preliminares não informativos", divido minha pergunta em duas partes e tenho certeza de que os usuários aqui que são mais experientes na teoria bayesiana sabem exatamente o que estou prestes a perguntar:
Q1: A ausência de um equivalente anterior (no sentido teórico estrito) a um anterior não informativo?
Se a resposta para Q1 for "Sim" (com alguma elaboração, por favor), significa que a abordagem bayesiana é aplicável universalmente e desde o início , já que em qualquer caso o ser humano envolvido declara "não tenho antecedentes", podemos suplementar seu lugar é um prior que não é informativo para o caso em questão.
Mas se a resposta para o Q1 for "Não", o Q2 aparecerá:
Q2: se a resposta ao Q1 for "Não", isso significa que, nos casos em que não há antecedentes, a abordagem bayesiana não é aplicável desde o início e precisamos primeiro formar um prior por alguma maneira não bayesiana, para que possamos aplicar posteriormente a abordagem bayesiana?
fonte
Respostas:
Q1: A ausência de um equivalente anterior (no sentido teórico estrito) a um anterior não informativo?
Não.
Primeiro, não há definição matemática para um "prior não informativo". Esta palavra é usada apenas informalmente para descrever alguns anteriores.
Por exemplo, o prior de Jeffrey costuma ser chamado de "não informativo". Este prior generaliza o uniforme uniforme para problemas invariantes da tradução. O prior de Jeffrey, de alguma forma, se adapta à geometria Riemanniana (teórica da informação) do modelo e, portanto, é independente da parametrização, dependente apenas da geometria do coletor (no espaço de distribuições) que é o modelo. Pode ser percebido como canônico, mas é apenas uma escolha. É apenas o uniforme anterior, de acordo com a estrutura de Riemann. Não é absurdo definir "não informativo = uniforme" como uma simplificação da questão. Isso se aplica a muitos casos e ajuda a fazer uma pergunta clara e simples.
Fazer inferência bayesiana sem prévia é como "como posso adivinhar sem nenhuma suposição sobre a distribuição de X apenas sabendo que X tem valores em [ 0 ; 1 ] ?" Esta pergunta obviamente não faz sentido. Se você responder 0,5, provavelmente terá uma distribuição em mente.E(X) X X [0;1]
As abordagens bayesiana e freqüentista simplesmente respondem a perguntas diferentes. Por exemplo, sobre estimadores, talvez o mais simples:
Frequentista (por exemplo): "Como posso estimar modo que minha resposta tenha o menor erro (apenas a média acima de x ) no pior caso (acima de θ )?". Isso leva a estimadores minimax.θ x θ
Bayesiano: "Como posso estimar modo que minha resposta tenha o menor erro médio (acima de θ )?". Isso leva aos estimadores de Bayes. Mas a questão está incompleta e deve especificar "média em que sentido?". Assim, a pergunta só está completa quando contém um prior.θ θ
De alguma forma, o frequentista visa o controle do pior caso e não precisa de um prévio. O bayesiano visa o controle médio e exige que um anterior diga "média em que sentido?".
Q2: se a resposta ao Q1 for "Não", isso significa que, nos casos em que não há antecedentes, a abordagem bayesiana não é aplicável desde o início e precisamos primeiro formar um prior por alguma maneira não bayesiana, para que possamos aplicar posteriormente a abordagem bayesiana?
Sim.
Problemas verdadeiros com especificações anteriores acontecem em problemas mais complicados, na minha opinião. O importante aqui é entender o que um certo prior diz.
fonte
Antes de tudo, a abordagem bayesiana é frequentemente usada porque você deseja incluir conhecimento prévio em seu modelo para enriquecê-lo. Se você não tem nenhum conhecimento prévio, atenha-se aos chamados pré-informativos semanais "não informativos" ou semanais. Observe que o uniforme anterior não é "desinformativo" por definição, pois a suposição sobre uniformidade é uma suposição. Não existe uma prévia verdadeiramente não informativa. Há casos em que "poderia ser qualquer coisa" é uma suposição prévia "não informativa" razoável, mas também há casos em que afirma que "todos os valores são igualmente prováveis" é uma suposição muito forte e irracional. Por exemplo, se você assumisse que minha altura pode estar entre 0 cm e 3 metros, com todos os valores igualmente prováveis a priori, isso não seria uma suposição razoável e daria muito peso aos valores extremos, então isso pode distorcer seu traseiro.
Por outro lado, Bayesian argumentaria que não há realmente situações em que você não tenha nenhum conhecimento ou crença anterior. Você sempre pode assumir algo e, como ser humano, está fazendo isso o tempo todo (psicólogos e economistas comportamentais fizeram toneladas de pesquisas sobre esse assunto). Todo o alarido bayesiano com os anteriores é sobre a quantificação desses preconceitos e a declaração explícita em seu modelo, uma vez que a inferência bayesiana consiste em atualizar suas crenças .
É fácil apresentar argumentos "sem premissas prévias", ou anteriores uniformes, para problemas abstratos, mas para problemas da vida real você teria conhecimento prévio. Se você precisasse fazer uma aposta sobre a quantidade de dinheiro em um envelope, saberia que a quantia precisa ser não-negativa e finita. Você também pode adivinhar qual é o limite superior para a quantia possível de dinheiro, dado seu conhecimento sobre as regras do concurso, fundos disponíveis para o adversário, conhecimento sobre o tamanho físico do envelope e a quantia que poderia caber fisicamente nele, etc. Você também pode fazer algumas suposições sobre a quantidade de dinheiro que seu adversário pode estar disposto a colocar no envelope e possivelmente perder. Há muitas coisas que você saberia como base para o seu prior.
fonte
pergunta 1 Acho que a resposta provavelmente é não. Minha razão é que realmente não temos uma definição para "não informativo", exceto para, de alguma forma, medir a distância da resposta final de algum modelo / probabilidade arbitrariamente informativa. Muitos prévios não informativos são validados contra exemplos "intuitivos", onde já temos "o modelo / probabilidade" e "a resposta" em mente. Em seguida, pedimos ao não informativo antes de nos dar a resposta que queremos.
Meu problema com isso é que tenho dificuldade em acreditar que alguém pode ter um modelo ou estrutura de modelo realmente bom e bem informado para sua população e, simultaneamente, não ter "nenhuma informação" sobre valores de parâmetros prováveis e improváveis para esse modelo. Por exemplo, usando regressão logística, consulte "UMA DISTRIBUIÇÃO PRÉVIA PADRÃO INFORMATIVA FRACAMENTE. PARA MODELOS LOGÍSTICOS E OUTROS MODELOS DE REGRESSÃO"
Penso que o anterior uniforme discreto é o único que poderíamos dizer razoavelmente como o "primeiro-primeiro" prior. Mas você se depara com problemas de usá-lo, pensando que não tem "informações", mas, de repente, tendo reações a respostas "não intuitivas" (dica: se você não gosta de uma resposta bayesiana - pode ter deixado as informações de fora ou antes). probabilidade!). Outro problema que você encontra é obter a discretização certa para o seu problema. E mesmo pensando nisso, você precisa saber o número de valores discretos para aplicar o uniforme discreto anterior.
Outra propriedade a considerar para o seu prior é o "comportamento da cauda" em relação à probabilidade que você está usando.
para a pergunta 2
Conceitualmente, não vejo nada de errado em especificar uma distribuição sem o uso de uma prévia ou probabilidade. Você pode iniciar um problema dizendo "meu pdf é ... e eu quero calcular ... escreva este pdf". Então você está criando uma restrição para o previsível, o previsível e a probabilidade anterior. O método bayesiano é para quando você tem uma probabilidade prévia e uma probabilidade e deseja combiná-las em uma distribuição posterior.
Provavelmente é uma questão de esclarecer quais são suas probabilidades. Em seguida, o argumento muda para "este pdf / pmf representa o que eu digo que representa?" - qual é o espaço em que você deseja estar, eu acho. No seu exemplo, você está dizendo que a distribuição única reflete todas as informações disponíveis - não há "anterior" porque já está contida (implicitamente) na distribuição que você está usando.
no chamado comentário descaradamente errado
Para ser sincero, eu ficaria muito interessado em ver como qualquer número de observação poderia ser usado para prever uma observação "estatisticamente independente". Como exemplo, se eu disser, gerarei 100 variáveis normais padrão. Dou-lhe 99 e faço com que você me dê a sua melhor previsão para a 100ª. Eu digo que você não pode fazer uma previsão melhor para o centésimo que 0. Mas é o mesmo que você preveria para o centésimo se eu não lhe desse dados. Portanto, você não aprende nada com os 99 pontos de dados.
No entanto, se eu disser que foi "alguma distribuição normal", você poderá usar os 99 pontos de dados para estimar os parâmetros. Agora, os dados não são mais "estatisticamente independentes", porque aprendemos mais sobre a estrutura comum à medida que observamos mais dados. Sua melhor previsão agora usa todos os 99 pontos de dados
fonte
Esta é apenas uma breve observação, além de outras excelentes respostas. Freqüentemente, ou pelo menos algumas vezes, é um tanto arbitrário (ou convencional) que parte da informação que entra em uma análise estatística é chamada de dados e qual parte é chamada anteriormente . Ou, de maneira mais geral, podemos dizer que as informações em uma análise estatística vêm de três fontes: o modelo , os dados e o anterior . Em alguns casos, como modelos lineares ou glm, a separação é bastante clara, pelo menos convencionalmente.
Vou reutilizar um exemplo da Estimativa de Máxima Verossimilhança (MLE) em termos leigos para ilustrar meu argumento. Digamos que um paciente entre no consultório médico, com alguns problemas médicos que se tornam difíceis de diagnosticar. Este médico não viu algo parecido antes. Então, conversando com o paciente, ele apresenta algumas informações novas: esse paciente visitou a África tropical recentemente. Então, parece ao médico que isso pode ser malária ou alguma outra doença tropical. Mas note que esta informação é claramente para nós dados, mas pelo menos em muitos modelos estatísticos que poderiam ser usados, ela entrará na análise na forma de uma distribuição anterior, uma distribuição anterior que dá maior probabilidade a algumas doenças tropicais. Mas poderíamos, talvez, criar um modelo (maior) e mais completo, onde essas informações entrem como dados. Portanto, pelo menos em parte, os dados de distinção / prior são convencionais.
Estamos acostumados a aceitar esta convenção devido à nossa ênfase em algumas classes de modelos convencionais. Mas, no esquema mais amplo, fora do mundo dos modelos estatísticos estilizados, a situação é menos clara.
fonte