Manipulando um conjunto de recursos que aumenta regularmente

10

Estou trabalhando em um sistema de detecção de fraudes. Nesse campo, novas fraudes aparecem regularmente, de modo que novos recursos precisam ser adicionados ao modelo continuamente.

Gostaria de saber qual é a melhor maneira de lidar com isso (da perspectiva do processo de desenvolvimento)? Apenas adicionar um novo recurso ao vetor de recursos e treinar novamente o classificador parece ser uma abordagem ingênua, porque será gasto muito tempo para a reaprendizagem dos recursos antigos.

Estou pensando no caminho de treinar um classificador para cada recurso (ou alguns recursos relacionados) e depois combinar os resultados desses classificadores com um classificador geral. Existem desvantagens dessa abordagem? Como posso escolher um algoritmo para o classificador geral?

Maxim Fridental
fonte

Respostas:

4

Em um mundo ideal, você retém todos os seus dados históricos e, de fato, executa um novo modelo com o novo recurso extraído retroativamente dos dados históricos. Eu diria que o recurso computacional gasto nisso é bastante útil, na verdade. É realmente um problema?

Sim, é uma técnica amplamente aceita criar um conjunto de classificadores e combinar seus resultados. Você pode construir um novo modelo em paralelo apenas com novos recursos e com uma média em sua previsão. Isso deve agregar valor, mas você nunca capturará a interação entre os recursos novos e antigos dessa maneira, pois eles nunca aparecerão juntos em um classificador.

Sean Owen
fonte
2

Aqui está uma idéia que surgiu do nada - e se você usar a Amostra aleatória de subespaço (como na verdade Sean Owen já sugeriu) para treinar um monte de novos classificadores toda vez que um novo recurso aparecer (usando um subconjunto aleatório de recursos, incluindo o novo conjunto de recursos). Você também pode treinar esses modelos em um subconjunto de amostras para economizar tempo de treinamento.

Dessa forma, você pode ter novos classificadores, possivelmente assumindo novos e antigos recursos e, ao mesmo tempo, mantendo seus antigos classificadores. Talvez você, talvez usando uma técnica de validação cruzada para medir o desempenho de cada classificador, consiga eliminar os de pior desempenho depois de um tempo, para evitar um modelo inchado.

insys
fonte
0

O que você descreve se enquadra na categoria de desvio conceito no aprendizado de máquina. Você pode encontrar idéias interessantes e acionáveis ​​neste documento de resumo e encontrará uma taxonomia das abordagens possíveis nesses slides .

damienfrancois
fonte