No livro PRML de Bishop, ele diz que o excesso de ajuste é um problema com a estimativa de máxima verossimilhança (MLE), e o Bayesian pode evitá-lo.
Mas eu acho que o super ajuste é um problema mais sobre a seleção de modelos, não sobre o método usado para fazer a estimativa de parâmetros. Ou seja, suponha que eu tenha um conjunto de dados , gerado por f ( x ) = s i n ( x ) , , agora eu posso escolher modelos diferentes H i para ajustar os dados e descobrir qual é o melhor. E os modelos em consideração são polinomiais com ordens diferentes, H 1 é a ordem 1, H 2 é a ordem 2, H 3 é a ordem 9.
Agora tento ajustar os dados com cada um dos três modelos, cada modelo tem seus parâmetros, indicados como w i para H i .
Usando ML, que terá uma estimativa do ponto dos parâmetros do modelo , e H 1 é muito simples e sempre sub-dimensionadas os dados, enquanto que H 3 é muito complexo e vai overfit os dados, apenas H 2 se encaixam bem os dados.
Minhas perguntas são,
1) O modelo superajustará os dados, mas não acho que seja o problema do ML, mas o problema do modelo em si. Porque, usando ML para H 1 , H 2 não resulta em super ajuste. Estou certo?
2) Comparado com o bayesiano, o ML tem algumas desvantagens, uma vez que apenas fornece a estimativa pontual dos parâmetros do modelo , e é superconfiante. Enquanto o bayesiano não depende apenas do valor mais provável do parâmetro, mas de todos os valores possíveis dos parâmetros, dados os dados observados D , certo?
3) Por que o bayesiano pode evitar ou diminuir o excesso de ajustes? Pelo que entendi, podemos usar bayesiano para comparação de modelos, ou seja, dados , podemos descobrir a probabilidade marginal (ou evidência de modelo) para cada modelo em consideração e, em seguida, escolher aquele com a maior probabilidade marginal, certo ? Se sim, por que isso?
fonte
Como resposta geral, se você estiver usando modelos de regressão do tipo "mínimos quadrados", não haverá muita diferença entre bayes e ML, a menos que você use um informativo prévio para os parâmetros de regressão. Em resposta a detalhes:
3) A abordagem bayesiana pode evitar o excesso de ajustes apenas para os priores. Isso funciona de maneira semelhante aos termos de penalidade que você vê em alguns algoritmos de ajuste. Por exemplo, penalidade L2 = normal anterior, penalidade L1 = laplace anterior.
fonte
A vantagem de impor antecedentes, por exemplo, através da regularização, é que os parâmetros são reduzidos a zero ou algum outro valor predefinido (você pode até adicionar parâmetros para "amarrar" os coeficientes, se quiser) e, assim, restringir implicitamente os parâmetros e reduzindo a "liberdade" do seu modelo para se ajustar demais. Por exemplo, usando o laço (ou seja,l1
fonte