O modelo com sobreajuste com AUC mais alta na amostra de teste é melhor do que o não com sobreajuste

7

estou participando de um desafio no qual criei um modelo que executa 70% de AUC no conjunto de trens e 70% de AUC no conjunto de testes de espera.
O outro participante criou um modelo que executa 96% de AUC no conjunto de trens e 76% de AUC no conjunto de testes de espera.

Na minha opinião, meu modelo é melhor porque ele executa no mesmo nível em um conjunto de espera.
P: É válido argumentar que seus 76% em um conjunto de testes são apenas uma coincidência e em outro conjunto de testes que seu modelo poderia ter um desempenho pior?

MiksL
fonte
Como você argumentaria que apenas o resultado dele poderia ser alcançado por acaso, não o seu?
Firebug
Eu tive o mesmo desempenho no set de treino, set de teste e hold-out. Ele tinha 96% no treino, não sei qual foi o desempenho dele no teste e ele teve 76% no set-out. Então, para mim, parece que meu modelo está produzindo resultados estáveis, enquanto o dele está equipado demais para treinar e não tenho certeza se, se receber uma nova amostra, seu modelo produziria os mesmos 76%.
MiksL

Respostas:

6

Isso dependerá de como seus conjuntos de treinamento e teste são compostos.

Se o conjunto de testes for grande e refletir a diversidade de dados do "caso de aplicação" corretamente, eu não argumentaria assim. Mas se os dados do teste forem bastante pequenos, é claro que você poderá obter resultados bons ou ruins por acaso. O uso de mais dados de teste seria útil nesses casos (ou o uso de uma porção maior do total de dados disponíveis - se possível).

Além disso, os resultados do treinamento devem ser obtidos usando algum particionamento interno (por exemplo, validação cruzada repetida), que testa os dados que o modelo não tinha visto antes. O desempenho e o desempenho espalhados por esses resultados mostram como o modelo costuma ser executado e qual a probabilidade de obter apenas resultados melhores ou piores. Usando esse procedimento, eu não consideraria resultados de teste melhores do que os resultados do seu currículo como realistas. Você provavelmente também deve examinar e comparar o desempenho do CV e o spread de desempenho dos dois modelos.

E: lembre-se de que, se seus dados de treinamento forem pequenos em comparação aos dados de teste, os resultados do treinamento ainda poderão ser notavelmente melhores que os resultados dos testes e os casos reais de casos de aplicação.

geekoverdose
fonte
3

Se o foco é puramente na precisão preditiva, o modelo com excesso de ajuste é provavelmente o melhor. Pegue, por exemplo, uma floresta aleatória: no conjunto de dados de treinamento, por construção, ele se adapta extremamente. Ainda assim, os resultados no conjunto de dados de teste costumam ser bastante razoáveis ​​(e o desempenho do teste se aproxima do desempenho declarado de imediato).

Isso funciona apenas se o conjunto de dados de teste refletir "casos reais" e as suposições dos modelos subjacentes forem atendidas razoavelmente.

Michael M
fonte
O foco é entender qual modelo teria melhor desempenho no futuro se colocado em modo de produção.
MiksL
0

É bem possível (e em certas situações) também se ajustar demais no conjunto de testes. Modelos adequadamente ajustados devem obter desempenho validado cruzado aproximadamente semelhante nos conjuntos de dados de treinamento e teste. As práticas recomendadas também devem conter outra parte do conjunto de dados que é usada apenas uma vez: para avaliar o desempenho do modelo em dados que ele ainda não viu.

Se você estiver usando o conjunto de testes para criar o modelo de forma iterativa, digamos, adicionando um recurso e vendo como ele é validado no conjunto de testes, você está fornecendo informações sobre o modelo. Especificamente, você está enviesando seus resultados no conjunto de testes para que sejam mais altos (ou seja, você está se ajustando demais) se ajustar o modelo com base no desempenho do conjunto de testes.

Daniel Berry
fonte
3
(-1) Desculpe, eu não concordo com isso "Os modelos devidamente ajustados devem obter desempenho validado cruzado aproximadamente semelhante nos conjuntos de dados de treinamento e teste". As Florestas Aleatórias rotineiramente alcançam pontuações perfeitas nos dados dos trens, por exemplo, você está dizendo que elas não são adequadas?
precisa