Técnicas para detectar sobreajuste

9

Eu tive uma entrevista de emprego para uma posição de ciência de dados. Durante a entrevista, perguntaram-me o que devo fazer para garantir que o modelo não seja ajustado demais. Minha primeira resposta foi usar a validação cruzada para avaliar o desempenho do modelo. No entanto, o entrevistador disse que mesmo a validação cruzada não pode identificar completamente o sobreajuste. Mencionei a regularização, mas o entrevistador disse que isso poderia ajudar a reduzir o sobreajuste (o que eu concordo), mas não para detectá-lo. Existem outras técnicas que podem ser usadas para garantir que um modelo não seja ajustado demais?

jroberayalas
fonte
2
isto q pode ajudar: stats.stackexchange.com/questions/193661/…
einar
Não tenho certeza se é exatamente isso que você deseja, John Langford neste URL descreve a fonte do sobreajuste e a técnica do remédio.
Wolfe

Respostas:

7

Acredito que, ao perguntar sobre o ajuste excessivo, o entrevistador procurou a "resposta do livro de texto" enquanto você passava alguns passos depois disso.

Um sintoma de excesso de ajuste é que o desempenho do classificador no conjunto de trens é melhor que o desempenho no conjunto de teste. Refiro-me a essa resposta como a "resposta do livro de texto", pois é a resposta comum e uma aproximação razoável.

Observe que esta resposta tem muitos fins em aberto. Por exemplo, quanta diferença é super ajustada? . Além disso, uma diferença no desempenho entre os conjuntos de dados não é necessariamente devido ao ajuste excessivo. Por outro lado, o ajuste excessivo não resultará necessariamente em uma diferença significativa no desempenho nos dois conjuntos de dados.

A validação cruzada é uma técnica para avaliar o desempenho de um aluno (por exemplo, árvore de decisão) em dados que ele não via antes. No entanto, o ajuste excessivo se refere a um modelo específico (por exemplo, se "f1" então e não "f2" predizer True). Ele mostrará a tendência do aluno de se superestimar nesses dados, mas não responderá se o seu modelo específico foi super adaptado.

Para sobreajustar, o modelo precisará de complexidade e é isso que a regularização ajuda. Limita (ou negocia) a complexidade do modelo. Observe que outra fonte de sobreajuste é o tamanho do conjunto de hipóteses (pode ser considerado o número de modelos possíveis). A decisão antecipada de usar um conjunto de hipóteses restrito é outra maneira de evitar o ajuste excessivo.

DaL
fonte