Práticas recomendadas para medir e evitar ajustes excessivos?

Estou desenvolvendo sistemas de negociação automatizados para o mercado de ações. O grande desafio tem sido excessivo. Você pode recomendar alguns recursos que descrevam métodos para medir e evitar ajustes excessivos?

Comecei com conjuntos de treinamento / validação, mas o conjunto de validação sempre fica corrompido.

Além disso, os dados das séries temporais estão sempre mudando porque o mercado está sempre mudando. Como você mede isso e determina a probabilidade de resultados consistentes em dados invisíveis?

Obrigado.

time-series machine-learning dataset data-mining validation B Seven
fonte

B Sete, sua pergunta é muito alta e não muito específica. Basicamente, todo o campo do aprendizado de máquina pode ser resumido à questão de como evitar o excesso de ajustes. Existem várias estratégias, como validação cruzada, regularização ou uso de um prévio adequado. Todo bom livro de aprendizado de máquina pode ajudá-lo com isso (por exemplo, o Duda / Hart / Stork ou o de Bishop). Também não está claro o que você quer dizer com "conjunto de validação corrompido". Se o seu modelo não puder lidar com a alteração dos dados das séries temporais, isso significa que provavelmente é muito simples. Mas modelos mais complexos precisarão de ainda mais regularização.

fabee

@ B Sete - se o seu conjunto de validação for corrompido (presumo que encaixe modelos), talvez dividir seus dados em um conjunto de treinamento, teste e validação possa ser mais apropriado?

richiemorrisroe 15/09

OK, isso faz sentido. Portanto, abordagens diferentes para evitar o ajuste excessivo de trabalho em diferentes domínios.

B Seven

Respostas:

Para um ajuste excessivo na seleção de modelos, um artigo que valha a pena ler

C. Ambroise e GJ McLachlan, "Viés de seleção na extração de genes com base em dados de expressão de genes de microarray", PNAS, vol. 99 não. 10 6562-6566, maio de 2002. http://dx.doi.org/10.1073/pnas.102102699

Para uma discussão sobre o mesmo tipo de problema que surge na seleção de modelos, consulte

GC Cawley, NLC Talbot, "Sobre adaptação excessiva na seleção de modelos e viés de seleção subsequente na avaliação de desempenho", Journal of Machine Learning Research, 11 (julho): 2079-2107, 2010. http://jmlr.csail.mit. edu / papers / v11 / cawley10a.html

A maneira de resolver o problema do conjunto de validação que está sendo contaminado é usar a validação cruzada aninhada, para que o método usado para fazer escolhas sobre o modelo seja executado independentemente em cada dobra da validação cruzada usada para estimativa de desempenho. Essencialmente, a estimativa de desempenho deve estimar o desempenho de todo o procedimento de ajuste do modelo (ajuste do modelo, seleção de recursos, seleção de modelos, tudo).

A outra abordagem é ser bayesiana. O risco de ajuste excessivo é introduzido sempre que você otimiza um critério com base em uma amostra finita de dados; portanto, se você marginalizar (integrar) em vez de otimizar, o ajuste clássico é impossível. No entanto, você tem o problema de especificar os anteriores.

Dikran Marsupial
fonte

Eu implementei a validação cruzada e a validação cruzada de deixar um fora, mas não entendi como medir e mitigar o excesso de ajuste. Eu olhei para esses papéis, mas eles estão acima da minha cabeça. Você pode recomendar mais recursos introdutórios?

B Seven

para medir o ajuste excessivo, basta aninhar a validação cruzada. A validação cruzada externa é usada para avaliação de desempenho e, em cada dobra da validação cruzada externa, é usada uma validação cruzada "interna" para a seleção de recursos e seleção de modelos etc. Isso fornecerá uma estimativa de desempenho imparcial.

Dikran Marsupial