Bayesian vs MLE, problema de sobreajuste

12

No livro PRML de Bishop, ele diz que o excesso de ajuste é um problema com a estimativa de máxima verossimilhança (MLE), e o Bayesian pode evitá-lo.

Mas eu acho que o super ajuste é um problema mais sobre a seleção de modelos, não sobre o método usado para fazer a estimativa de parâmetros. Ou seja, suponha que eu tenha um conjunto de dados , gerado por f ( x ) = s i n ( x ) ,D , agora eu posso escolher modelos diferentes H i para ajustar os dados e descobrir qual é o melhor. E os modelos em consideração são polinomiais com ordens diferentes, H 1 é a ordem 1, H 2 é a ordem 2, H 3 é a ordem 9.

f(x)=sin(x),x[0,1]
HiH1H2H3

Agora tento ajustar os dados com cada um dos três modelos, cada modelo tem seus parâmetros, indicados como w i para H i .DwiHi

Usando ML, que terá uma estimativa do ponto dos parâmetros do modelo , e H 1 é muito simples e sempre sub-dimensionadas os dados, enquanto que H 3 é muito complexo e vai overfit os dados, apenas H 2 se encaixam bem os dados.wH1H3H2

Minhas perguntas são,

1) O modelo superajustará os dados, mas não acho que seja o problema do ML, mas o problema do modelo em si. Porque, usando ML para H 1 , H 2 não resulta em super ajuste. Estou certo?H3H1,H2

2) Comparado com o bayesiano, o ML tem algumas desvantagens, uma vez que apenas fornece a estimativa pontual dos parâmetros do modelo , e é superconfiante. Enquanto o bayesiano não depende apenas do valor mais provável do parâmetro, mas de todos os valores possíveis dos parâmetros, dados os dados observados D , certo?wD

3) Por que o bayesiano pode evitar ou diminuir o excesso de ajustes? Pelo que entendi, podemos usar bayesiano para comparação de modelos, ou seja, dados , podemos descobrir a probabilidade marginal (ou evidência de modelo) para cada modelo em consideração e, em seguida, escolher aquele com a maior probabilidade marginal, certo ? Se sim, por que isso?D

abacate
fonte

Respostas:

19

A otimização é a raiz de todo mal nas estatísticas. Sempre que você faz escolhas sobre seu modelo 1 , otimizando algum critério adequado avaliado em uma amostra finita de dados, você corre o risco de superajustar o critério, ou seja, reduzindo a estatística além do ponto em que são obtidas melhorias no desempenho da generalização e a redução é em vez disso, explorando as peculiaridades da amostra de dados, por exemplo, ruído). A razão pela qual o método bayesiano funciona melhor é que você não otimiza nada, mas marginaliza (integra) todas as opções possíveis. O problema então reside na escolha de crenças anteriores sobre o modelo; portanto, um problema desapareceu, mas outro aparece em seu lugar.1


Isso inclui maximizar a evidência (probabilidade marginal) em um cenário bayesiano. Para um exemplo disso, veja os resultados dos classificadores de Processo Gaussiano em meu artigo, onde otimizar a probabilidade marginal piora o modelo se você tiver muitos hiperparâmetros (a seleção de notas de acordo com a probabilidade marginal tenderá a favorecer modelos com muito parâmetros como resultado dessa forma de sobreposição).1

GC Cawley e NLC Talbot, excesso de ajuste na seleção de modelos e viés de seleção subsequente na avaliação de desempenho, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, julho de 2010. ( pdf )

Dikran Marsupial
fonte
+1, muito obrigado, vou ler o seu artigo e ver se tenho mais alguma dúvida ;-)
abacate
1
Apenas para observar aqui que a otimização geralmente pode ser considerada como uma integração aproximada - o método Laplace é um exemplo disso. A otimização geralmente falha quando não é uma boa aproximação à integração - por isso, a REML geralmente é melhor que a ML.
probabilityislogic
@probabilityislogic, não sei ao certo se o ML é um pouco parecido com o MAP, não há integração realizada. O uso da aproximação de Laplace (da maneira como eu a vi usada) é otimizar no sentido de que você otimiza uma aproximação à função que deseja integrar e integrar, mas ainda há integração em andamento.
Dikran Marsupial
1
@dikran marsupial - Talvez a melhor maneira de explicar isso é que a integração geralmente é bem aproximada estimando um parâmetro por ML e restringindo esse parâmetro a ser igual ao seu MLE. A aproximação de Laplace fornece um "fator de correção" para essa intuição - da mesma maneira que REML.
probabilityislogic
@probabilityislogic obrigado pela resposta, vou pensar um pouco!
Dikran Marsupial
7

Como resposta geral, se você estiver usando modelos de regressão do tipo "mínimos quadrados", não haverá muita diferença entre bayes e ML, a menos que você use um informativo prévio para os parâmetros de regressão. Em resposta a detalhes:

H9H1

x

3) A abordagem bayesiana pode evitar o excesso de ajustes apenas para os priores. Isso funciona de maneira semelhante aos termos de penalidade que você vê em alguns algoritmos de ajuste. Por exemplo, penalidade L2 = normal anterior, penalidade L1 = laplace anterior.

probabilityislogic
fonte
H9
H
H9
4

H1H2H3 não overfit em tudo pode, se o número de instâncias de treinamento é grande o suficiente.

2H1 será sempre overfit seus dados.

A vantagem de impor antecedentes, por exemplo, através da regularização, é que os parâmetros são reduzidos a zero ou algum outro valor predefinido (você pode até adicionar parâmetros para "amarrar" os coeficientes, se quiser) e, assim, restringir implicitamente os parâmetros e reduzindo a "liberdade" do seu modelo para se ajustar demais. Por exemplo, usando o laço (ou seja,l1

Youloush
fonte
Uma hipótese simples (por exemplo, h1, h2) com amostras de treinamento insuficientes seria um exemplo de ajuste insuficiente (para cv) e não ajuste excessivo devido ao viés do modelo nos poucos exemplos de treinamento fornecidos.
Yekta