Costuma-se argumentar que a estrutura bayesiana tem uma grande vantagem na interpretação (sobre frequentista), porque calcula a probabilidade de um parâmetro dado os dados - vez de como no exemplo quadro freqüentista. Por enquanto, tudo bem.p ( x | θ )
Mas, toda a equação é baseada em:
parece-me pouco suspeito por 2 razões:
Em muitos artigos, geralmente são usados prioritários não informativos (distribuições uniformes) e, em seguida, apenas , para que os bayesianos obtenham o mesmo resultado que os freqüentadores - então como é então melhor a estrutura bayesiana? interpretação, quando probabilidade bayesiana posterior e freqüentista são as mesmas distribuições? Apenas produz o mesmo resultado.
Ao usar anteriores informativos, você obtém resultados diferentes, mas o bayesiano é afetado pelo anterior subjetivo, portanto todo possui o tom subjetivo.
Em outras palavras, todo o argumento de ser melhor na interpretação do que baseia-se na presunção de que é uma espécie de "real", o que normalmente não é. é apenas um ponto de partida que, de alguma forma, escolhemos executar o MCMC, uma presunção, mas não é uma descrição da realidade (acho que não pode ser definido).p ( x | θ ) p ( θ
Então, como podemos argumentar que o bayesiano é melhor na interpretação?
fonte
uninformative or *objective* priors
? Os anterioressubjective
são exatamente informativos .Respostas:
Para dar uma resposta mais estreita do que as excelentes que já foram publicadas, e focar na vantagem na interpretação - a interpretação bayesiana de a, por exemplo, "intervalo de 95% de credibilidade" é que a probabilidade de que o verdadeiro valor do parâmetro esteja dentro do intervalo é igual a 95%. Uma das duas interpretações freqüentistas comuns de a, por exemplo, "intervalo de confiança de 95%", mesmo que numericamente as duas sejam idênticas, é que, a longo prazo, se formos executar o procedimento muitas vezes, a frequência com que o intervalo cobriria o valor real convergiria para 95%. O primeiro é intuitivo, o segundo não é. Tente explicar a um gerente algum tempo que você não pode dizer "A probabilidade de que nossos painéis solares se degradem em menos de 20% em 25 anos é de 95%", mas, em vez disso, deve dizer "
Uma interpretação freqüentista alternativa seria "Antes que os dados fossem gerados, havia uma chance de 5% de que o intervalo que eu calculasse usando o procedimento que eu decidi caísse completamente abaixo do valor real do parâmetro. No entanto, agora que coletamos os dados, não podemos fazer tal afirmação, porque não somos subjetivistas e a probabilidade é 0 ou 1, dependendo de estar ou não totalmente abaixo do valor real do parâmetro ". Isso ajudará os auditores e o cálculo de uma reserva de garantia. (Na verdade, acho essa definição razoável, embora geralmente não seja útil; também não é fácil de entender intuitivamente, e especialmente se você não é estatístico.)
Nenhuma interpretação freqüentista é intuitiva. A versão bayesiana é. Daí a "grande vantagem na interpretação" sustentada pela abordagem bayesiana.
fonte
Observe que os antecedentes informativos não são necessariamente subjetivos, por exemplo, eu não consideraria conhecimento subjetivo afirmar que o conhecimento prévio de algum sistema físico deve ser independente das unidades de medida (pois são essencialmente arbitrárias), levando à ideia de grupos de transformação e anteriores "minimamente informativos".
O lado oposto de ignorar o conhecimento subjetivo é que seu sistema pode ficar abaixo do ideal porque você está ignorando o conhecimento especializado; portanto, a subjetividade não é necessariamente uma coisa ruim. Por exemplo, no problema usual de "inferir o viés de uma moeda", freqüentemente usado como exemplo motivador, você aprenderá relativamente lentamente com um uniforme antes que os dados cheguem. Mas todas as quantias de viés são igualmente prováveis? Não, é fácil criar uma moeda levemente tendenciosa ou completamente tendenciosa (duas cabeças ou dois tals); portanto, se incorporarmos essa suposição em nossa análise, via um subjetivo anterior, precisaremos de menos dados para identificar qual viés é realmente.
As análises freqüentistas também freqüentemente contêm elementos subjetivos (por exemplo, a decisão de rejeitar a hipótese nula se o valor-p for menor que 0,05, não há compulsão lógica para fazê-lo, é apenas uma tradição que se mostrou útil). A vantagem da abordagem bayesiana é que a subjetividade é explicitada no cálculo, em vez de deixá-la implícita.
No final do dia, é uma questão de "cavalos para percursos", você deve ter os dois conjuntos de ferramentas em sua caixa de ferramentas e estar preparado para usar a melhor ferramenta para a tarefa em mãos.
fonte
A estrutura bayesiana tem uma grande vantagem sobre o frequentista, porque não depende de ter uma "bola de cristal" em termos de conhecer as suposições distributivas corretas a serem feitas. Os métodos bayesianos dependem do uso de quais informações você possui e de como codificá-las em uma distribuição de probabilidade.
Usar métodos bayesianos é basicamente usar a teoria das probabilidades em todo o seu poder. O teorema de Bayes nada mais é do que uma reafirmação da regra clássica da teoria da probabilidade do produto:
Agora, se você acha que o teorema de Bayes é suspeito, logicamente, também deve pensar que a regra do produto também é suspeita. Você pode encontrar um argumento dedutivo aqui , que deriva as regras de produto e soma, semelhantes ao teorema de Cox. Uma lista mais explícita das suposições necessárias pode ser encontrada aqui .
Tanto quanto sei, a inferência freqüentista não se baseia em um conjunto de fundamentos dentro de uma estrutura lógica. Por usar os axiomas de probabilidade de Kolmogorov, parece não haver nenhuma conexão entre a teoria da probabilidade e a inferência estatística. Não existem axiomas para a inferência freqüentista que levam a um procedimento a ser seguido. Existem princípios e métodos (probabilidade máxima, intervalos de confiança, valores-p etc.), e eles funcionam bem, mas tendem a ser isolados e especializados em problemas específicos. Penso que os métodos freqüentistas devem ser deixados vagos em suas fundações, pelo menos em termos de uma estrutura lógica estrita.
Usar um prior uniforme é geralmente uma aproximação conveniente a ser feita quando a probabilidade é acentuada em comparação com o anterior. Às vezes, não vale a pena o esforço para realizar e configurar adequadamente um prévio. Da mesma forma, não cometa o erro de confundir estatísticas bayesianas com o MCMC. O MCMC é apenas um algoritmo para integração, o mesmo que quadratura guassiana, e em uma classe semelhante à aproximação de Laplace. É um pouco mais útil que o quadratre, porque você pode reutilizar a saída do algoritmo para fazer todas as suas integrais (médias e variações posteriores são integrais) e um pouco mais geral que Laplace, porque você não precisa de uma grande amostra ou uma pico bem arredondado na parte posterior (Laplace é mais rápido).
fonte
No entanto, este não é (na minha opinião) o aspecto mais importante das metodologias bayesianas. Os métodos bayesianos são generativos, na medida em que fornecem uma "história" completa de como os dados surgiram. Portanto, eles não são simplesmente buscadores de padrões, mas são capazes de levar em conta toda a realidade da situação em questão. Por exemplo, considere o LDA (alocação latente de Dirichlet), que fornece uma história generativa completa de como um documento de texto se apresenta, algo assim:
Assim, o modelo é adequado com base em uma compreensão muito específica dos objetos no domínio (aqui, documentos de texto) e como eles foram criados; portanto, as informações que retornamos são adaptadas diretamente ao nosso domínio do problema (probabilidade de palavras relacionadas a tópicos, probabilidade de tópicos serem mencionados juntos, probabilidade de documentos que contenham tópicos e até que ponto etc.). O fato de o teorema de Bayes ser necessário para fazer isso é quase secundário, daí a pequena piada: "Bayes não seria bayesiano e Cristo não seria cristão".
Em resumo, os modelos bayesianos tratam de modelar rigorosamente os objetos de domínio usando distribuições de probabilidade; portanto, somos capazes de codificar conhecimentos que, de outra forma, não estariam disponíveis com uma técnica discriminativa simples.
fonte