É verdade que os métodos bayesianos não se ajustam demais?

25

É verdade que os métodos bayesianos não se ajustam demais? (Vi alguns artigos e tutoriais fazendo essa reivindicação)

Por exemplo, se aplicarmos um Processo Gaussiano ao MNIST (classificação de dígitos manuscritos), mas mostrarmos apenas uma amostra, será revertida para a distribuição anterior para quaisquer entradas diferentes daquela amostra única, por menor que seja a diferença?

MaxB
fonte
estava apenas pensando - existe uma maneira matematicamente precisa de definir "ajuste excessivo"? se você puder, é provável que você também possa incorporar recursos em uma função de probabilidade ou antes para evitar que isso aconteça. meu pensamento é que essa noção soa semelhante a "outliers".
probabilityislogic

Respostas:

25

Não, não é verdade. Os métodos bayesianos certamente superestimam os dados. Existem algumas coisas que tornam os métodos bayesianos mais robustos contra o ajuste excessivo e você também pode torná-los mais frágeis.

A natureza combinatória das hipóteses bayesianas, em vez de hipóteses binárias, permite múltiplas comparações quando alguém não possui o modelo "verdadeiro" para métodos de hipótese nula. Um posterior bayesiano penaliza efetivamente um aumento na estrutura do modelo, como adicionar variáveis ​​enquanto recompensa melhorias no ajuste. As penalidades e ganhos não são otimizações, como seria o caso de métodos não bayesianos, mas mudam as probabilidades de novas informações.

Embora isso geralmente ofereça uma metodologia mais robusta, há uma restrição importante e o uso de distribuições anteriores apropriadas. Embora exista uma tendência a querer imitar os métodos freqüentistas usando prioros simples, isso não garante uma solução adequada. Existem artigos sobre o ajuste excessivo nos métodos bayesianos e parece-me que o pecado parece estar tentando ser "justo" com os métodos não bayesianos, começando com anteriores estritamente planos. A dificuldade é que o prior é importante para normalizar a probabilidade.

Modelos bayesianos são modelos intrinsecamente ótimos no sentido de admissibilidade da palavra por Wald, mas há um bicho-papão escondido lá. Wald está assumindo que o prior é o seu verdadeiro prior e não o anterior que você está usando, para que os editores não o enganem por colocar muita informação nele. Eles não são ótimos no mesmo sentido que os modelos freqüentistas. Os métodos freqüentistas começam com a otimização de minimizar a variação, mantendo-se imparcial.

Essa é uma otimização dispendiosa, pois descarta informações e não é intrinsecamente admissível no sentido de Wald, embora freqüentemente seja admissível. Portanto, os modelos freqüentistas fornecem um ajuste ideal aos dados, dada a imparcialidade. Os modelos bayesianos não são adequados nem imparciais nem ideais para os dados. Este é o comércio que você está fazendo para minimizar o overfitting.

Os modelos bayesianos são intrinsecamente tendenciosos, a menos que sejam tomadas medidas especiais para torná-los imparciais, que geralmente são mais adequados aos dados. Sua virtude é que eles nunca usam menos informações que um método alternativo para encontrar o "modelo verdadeiro" e essas informações adicionais tornam os modelos bayesianos nunca menos arriscados que os modelos alternativos, principalmente quando trabalham fora da amostra. Dito isto, sempre haverá uma amostra que poderia ter sido sorteada aleatoriamente que "sistematicamente enganaria" o método bayesiano.

Quanto à segunda parte da sua pergunta, se você analisasse uma única amostra, a posterior seria alterada para sempre em todas as suas partes e não retornaria à anterior, a menos que houvesse uma segunda amostra que cancelasse exatamente todas as informações no primeira amostra. Pelo menos teoricamente isso é verdade. Na prática, se o anterior for suficientemente informativo e a observação suficientemente pouco informativa, o impacto poderá ser tão pequeno que um computador não possa medir as diferenças devido à limitação no número de dígitos significativos. É possível que um efeito seja muito pequeno para um computador processar uma alteração na parte posterior.

Portanto, a resposta é "sim", você pode superestimar uma amostra usando um método bayesiano, principalmente se você tiver um tamanho de amostra pequeno e antecedentes impróprios. A segunda resposta é "não". O teorema de Bayes nunca esquece o impacto de dados anteriores, embora o efeito possa ser tão pequeno que você perde computacionalmente.

Dave Harris
fonte
2
Na Eles começam com a otimização de minimizar a variância, permanecendo imparcial. , o que são eles ?
Richard Hardy
N(θ,σ2)σ
11
σ
11

Algo para estar ciente é que, como praticamente em qualquer outro lugar, um problema significativo nos métodos bayesianos pode ser a especificação incorreta do modelo.

Esse é um ponto óbvio, mas pensei em compartilhar uma história.

Uma vinheta de volta na graduação ...

Uma aplicação clássica da filtragem de partículas bayesiana é rastrear a localização de um robô enquanto ele se move pela sala. O movimento expande a incerteza, enquanto as leituras do sensor reduzem a incerteza.

Lembro-me de codificar algumas rotinas para fazer isso. Escrevi um modelo sensato e teoricamente motivado para a probabilidade de observar várias leituras do sonar, dados os verdadeiros valores. Tudo foi precisamente derivado e codificado lindamente. Então eu vou testá-lo ...

O que aconteceu? Falha total! Por quê? Meu filtro de partículas rapidamente pensou que as leituras dos sensores haviam eliminado quase toda a incerteza. Minha nuvem de pontos caiu até certo ponto, mas meu robô não estava necessariamente naquele momento!

Basicamente, minha função de probabilidade era ruim; minhas leituras dos sensores não eram tão informativas quanto eu pensava. Eu estava me arrumando demais. Uma solução? Misturei muito mais barulho gaussiano (de maneira bastante ad-hoc), a nuvem de pontos parou de colapsar e, em seguida, a filtragem funcionou lindamente.

Moral?

Como Box disse, "todos os modelos estão errados, mas alguns são úteis". Certamente, você não terá a verdadeira função de probabilidade e, se estiver suficientemente desligada, seu método bayesiano pode ficar terrivelmente errado e super ajustado.

Adicionar um prioritário não resolve magicamente os problemas decorrentes da suposição de que as observações são IID quando não são, assumindo que a probabilidade tenha mais curvatura do que etc ...

Matthew Gunn
fonte
3
"Uma vinheta de trás da graduação ... Uma aplicação clássica da filtragem de partículas bayesiana é rastrear a localização de um robô enquanto ele se move pela sala" ... whoa, onde estava sua graduação? :)
Cliff AB