Como o arcabouço bayesiano é melhor na interpretação quando geralmente usamos priores não informativos ou subjetivos?

18

Costuma-se argumentar que a estrutura bayesiana tem uma grande vantagem na interpretação (sobre frequentista), porque calcula a probabilidade de um parâmetro dado os dados - vez de como no exemplo quadro freqüentista. Por enquanto, tudo bem. $p(\theta|x)$ $p(x|\theta)$

Mas, toda a equação é baseada em:

$p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)}$

parece-me pouco suspeito por 2 razões:

Em muitos artigos, geralmente são usados prioritários não informativos (distribuições uniformes) e, em seguida, apenas , para que os bayesianos obtenham o mesmo resultado que os freqüentadores - então como é então melhor a estrutura bayesiana? interpretação, quando probabilidade bayesiana posterior e freqüentista são as mesmas distribuições? Apenas produz o mesmo resultado. $p(\theta|x) = p(x|\theta)$
Ao usar anteriores informativos, você obtém resultados diferentes, mas o bayesiano é afetado pelo anterior subjetivo, portanto todo possui o tom subjetivo. $p(\theta|x)$

Em outras palavras, todo o argumento de ser melhor na interpretação do que baseia-se na presunção de que é uma espécie de "real", o que normalmente não é. é apenas um ponto de partida que, de alguma forma, escolhemos executar o MCMC, uma presunção, mas não é uma descrição da realidade (acho que não pode ser definido). $p(\theta|x)$ $p(x|\theta)$ $p(\theta)$

Então, como podemos argumentar que o bayesiano é melhor na interpretação?

bayesian interpretation prior likelihood posterior Curioso
fonte

4

(1) parece suspeito porque sua conclusão está incorreta: resultados bayesianos com priores não informativos não são necessariamente os mesmos que conclusões freqüentes. De fato, em muitos casos , parece não haver acordo sobre o que é um "prioritário não informativo"! (2) também é discutível porque pressupõe implicitamente que todas as suposições feitas em uma análise freqüentista não são subjetivas - mas esse não é o caso. Finalmente, o que exatamente você quer dizer com "melhor interpretação"? Sua pergunta é ambígua sem uma definição disso.

whuber

1

Além do comentário de whuber, eu gostaria de dizer, não há razão geral pela qual Bayes seja melhor que freqüentador, daí o argumento. Às vezes, Bayes dá resultados significativos e, às vezes, o caminho freqüentista é melhor. No entanto, no campo aplicado, não deve haver razão para obter resultados muito diferentes. De uma perspectiva filosófica, Bayes é definitivamente forte, mas como todos sabemos, teoria e prática diferem, às vezes drasticamente. Além disso, estou um pouco preocupado com o seu primeiro parágrafo. Parece-me que você é um bayesiano comprometido (não há nada de errado nisso).

suncoolsu

O título não deve ser uninformative or *objective* priors? Os anteriores subjectivesão exatamente informativos .

javadba

15

Para dar uma resposta mais estreita do que as excelentes que já foram publicadas, e focar na vantagem na interpretação - a interpretação bayesiana de a, por exemplo, "intervalo de 95% de credibilidade" é que a probabilidade de que o verdadeiro valor do parâmetro esteja dentro do intervalo é igual a 95%. Uma das duas interpretações freqüentistas comuns de a, por exemplo, "intervalo de confiança de 95%", mesmo que numericamente as duas sejam idênticas, é que, a longo prazo, se formos executar o procedimento muitas vezes, a frequência com que o intervalo cobriria o valor real convergiria para 95%. O primeiro é intuitivo, o segundo não é. Tente explicar a um gerente algum tempo que você não pode dizer "A probabilidade de que nossos painéis solares se degradem em menos de 20% em 25 anos é de 95%", mas, em vez disso, deve dizer "

Uma interpretação freqüentista alternativa seria "Antes que os dados fossem gerados, havia uma chance de 5% de que o intervalo que eu calculasse usando o procedimento que eu decidi caísse completamente abaixo do valor real do parâmetro. No entanto, agora que coletamos os dados, não podemos fazer tal afirmação, porque não somos subjetivistas e a probabilidade é 0 ou 1, dependendo de estar ou não totalmente abaixo do valor real do parâmetro ". Isso ajudará os auditores e o cálculo de uma reserva de garantia. (Na verdade, acho essa definição razoável, embora geralmente não seja útil; também não é fácil de entender intuitivamente, e especialmente se você não é estatístico.)

Nenhuma interpretação freqüentista é intuitiva. A versão bayesiana é. Daí a "grande vantagem na interpretação" sustentada pela abordagem bayesiana.

jbowman
fonte

Meu problema com o argumento anti-freqüentador é que ele tenta demais descrever o procedimento como uma resposta. Tente o mesmo experimento para si mesmo na interpretação, mas sobre qual conclusão tirar dos resultados. Como exatamente você agiria de maneira diferente com base nos resultados de um frequentista e um bayesiano? Na realidade, você continuará agindo da mesma maneira quando entender os dois. Não é necessário ir ao nível do procedimento para explicar que "o melhor é agir assim e assim com base na confiança dada pelos dados".

PascalVKooten

Além disso, por definição, você terá que fazer mais explicações no caso bayesiano, pois você não apenas tem "o que os dados nos dizem", mas também que informações o anterior contém! Os bayesianos tendem a dar uma longa explicação freqüentista, mas não explicam o que antes escolheram, por que escolheram um prior e, especificamente, por que esse prior.

PascalVKooten

Bem, eu discordo parcialmente do seu último ponto. Como exemplo, quando eu estava analisando a confiabilidade de equipamentos muito, muito caros, em meu trabalho anterior, tratamos os resultados de nossa análise de confiabilidade anterior como anterior ao nosso novo, com redução de peso em termos de "tamanho de amostra equivalente" a leve em consideração a não estacionariedade do mundo real e pequenas mudanças no design etc. E, na verdade, as estatísticas bayesianas tratam de atualizar seu anterior com dados; as estatísticas clássicas não são "atualizadas", portanto, você obtém os mesmos resultados se o seu prior for plano, com algumas exceções.

precisa saber é

Gostaria apenas de mesclar os conjuntos de dados e realizar outra análise ... não há necessidade de criar uma prévia. Não há dados anteriores melhores que os anteriores reais: você obtém um posterior "real" baseado em dados.

PascalVKooten

Bem, você pode não querer exatamente o posterior anterior para o seu novo prior, no nosso caso por causa de pequenas alterações em andamento no projeto e por nosso conhecimento de que o mfg. O processo também estava evoluindo, tornando nosso anterior não 100% informativo para dados futuros. Também pode haver considerações em tempo de execução. Mas seu ponto de vista é geralmente bom, ao que me parece.

jbowman

13

$p(\theta|x)$ $p(x|\theta)$ $p(x|\theta)$ $p(\theta|x)$

Observe que os antecedentes informativos não são necessariamente subjetivos, por exemplo, eu não consideraria conhecimento subjetivo afirmar que o conhecimento prévio de algum sistema físico deve ser independente das unidades de medida (pois são essencialmente arbitrárias), levando à ideia de grupos de transformação e anteriores "minimamente informativos".

O lado oposto de ignorar o conhecimento subjetivo é que seu sistema pode ficar abaixo do ideal porque você está ignorando o conhecimento especializado; portanto, a subjetividade não é necessariamente uma coisa ruim. Por exemplo, no problema usual de "inferir o viés de uma moeda", freqüentemente usado como exemplo motivador, você aprenderá relativamente lentamente com um uniforme antes que os dados cheguem. Mas todas as quantias de viés são igualmente prováveis? Não, é fácil criar uma moeda levemente tendenciosa ou completamente tendenciosa (duas cabeças ou dois tals); portanto, se incorporarmos essa suposição em nossa análise, via um subjetivo anterior, precisaremos de menos dados para identificar qual viés é realmente.

As análises freqüentistas também freqüentemente contêm elementos subjetivos (por exemplo, a decisão de rejeitar a hipótese nula se o valor-p for menor que 0,05, não há compulsão lógica para fazê-lo, é apenas uma tradição que se mostrou útil). A vantagem da abordagem bayesiana é que a subjetividade é explicitada no cálculo, em vez de deixá-la implícita.

No final do dia, é uma questão de "cavalos para percursos", você deve ter os dois conjuntos de ferramentas em sua caixa de ferramentas e estar preparado para usar a melhor ferramenta para a tarefa em mãos.

$\gg$

Dikran Marsupial
fonte

6

A estrutura bayesiana tem uma grande vantagem sobre o frequentista, porque não depende de ter uma "bola de cristal" em termos de conhecer as suposições distributivas corretas a serem feitas. Os métodos bayesianos dependem do uso de quais informações você possui e de como codificá-las em uma distribuição de probabilidade.

Usar métodos bayesianos é basicamente usar a teoria das probabilidades em todo o seu poder. O teorema de Bayes nada mais é do que uma reafirmação da regra clássica da teoria da probabilidade do produto:

p (θ x | Eu) = p (θ | Eu) p (x | θ Eu) = p (x | Eu) p (θ | x Eu)

$p(x|I)\neq 0$ $I$

Agora, se você acha que o teorema de Bayes é suspeito, logicamente, também deve pensar que a regra do produto também é suspeita. Você pode encontrar um argumento dedutivo aqui , que deriva as regras de produto e soma, semelhantes ao teorema de Cox. Uma lista mais explícita das suposições necessárias pode ser encontrada aqui .

Tanto quanto sei, a inferência freqüentista não se baseia em um conjunto de fundamentos dentro de uma estrutura lógica. Por usar os axiomas de probabilidade de Kolmogorov, parece não haver nenhuma conexão entre a teoria da probabilidade e a inferência estatística. Não existem axiomas para a inferência freqüentista que levam a um procedimento a ser seguido. Existem princípios e métodos (probabilidade máxima, intervalos de confiança, valores-p etc.), e eles funcionam bem, mas tendem a ser isolados e especializados em problemas específicos. Penso que os métodos freqüentistas devem ser deixados vagos em suas fundações, pelo menos em termos de uma estrutura lógica estrita.

$1$ $\theta$

$2$

Usar um prior uniforme é geralmente uma aproximação conveniente a ser feita quando a probabilidade é acentuada em comparação com o anterior. Às vezes, não vale a pena o esforço para realizar e configurar adequadamente um prévio. Da mesma forma, não cometa o erro de confundir estatísticas bayesianas com o MCMC. O MCMC é apenas um algoritmo para integração, o mesmo que quadratura guassiana, e em uma classe semelhante à aproximação de Laplace. É um pouco mais útil que o quadratre, porque você pode reutilizar a saída do algoritmo para fazer todas as suas integrais (médias e variações posteriores são integrais) e um pouco mais geral que Laplace, porque você não precisa de uma grande amostra ou uma pico bem arredondado na parte posterior (Laplace é mais rápido).

probabilityislogic
fonte

3

$\mu=0$ ) colocados sobre um coeficiente de regressão, codificando o conhecimento de que todas as coisas são iguais, preferimos soluções nas quais os coeficientes têm magnitudes mais baixas. Isso evita o excesso de ajuste de um conjunto de dados, encontrando soluções que maximizam a função objetivo, mas que não fazem sentido no contexto específico de nosso problema. De certa forma, eles fornecem uma maneira de fornecer ao modelo estatístico algumas "pistas" sobre um domínio específico.

No entanto, este não é (na minha opinião) o aspecto mais importante das metodologias bayesianas. Os métodos bayesianos são generativos, na medida em que fornecem uma "história" completa de como os dados surgiram. Portanto, eles não são simplesmente buscadores de padrões, mas são capazes de levar em conta toda a realidade da situação em questão. Por exemplo, considere o LDA (alocação latente de Dirichlet), que fornece uma história generativa completa de como um documento de texto se apresenta, algo assim:

Selecione uma mistura de tópicos com base na probabilidade de tópicos específicos co-ocorrerem; e
Selecione um conjunto de palavras do vocabulário, condicionado com base nos tópicos selecionados.

Assim, o modelo é adequado com base em uma compreensão muito específica dos objetos no domínio (aqui, documentos de texto) e como eles foram criados; portanto, as informações que retornamos são adaptadas diretamente ao nosso domínio do problema (probabilidade de palavras relacionadas a tópicos, probabilidade de tópicos serem mencionados juntos, probabilidade de documentos que contenham tópicos e até que ponto etc.). O fato de o teorema de Bayes ser necessário para fazer isso é quase secundário, daí a pequena piada: "Bayes não seria bayesiano e Cristo não seria cristão".

Em resumo, os modelos bayesianos tratam de modelar rigorosamente os objetos de domínio usando distribuições de probabilidade; portanto, somos capazes de codificar conhecimentos que, de outra forma, não estariam disponíveis com uma técnica discriminativa simples.

William
fonte

Como o arcabouço bayesiano é melhor na interpretação quando geralmente usamos priores não informativos ou subjetivos?

Respostas: