Eu tenho um conjunto de dados que quero classificar como fraude / não fraude e tenho muitos alunos fracos. Minha preocupação é que haja muito mais fraude do que não fraude; portanto, meus alunos fracos têm desempenho melhor que a média, mas nenhum desempenho melhor que 50% no conjunto completo.
Minha pergunta é se devo configurar conjuntos de testes e treinamento que sejam metade fraude e metade não fraude ou se devo apenas usar uma amostra representativa.
Respostas:
É possível que a adição de dados gerados ao seu conjunto de dados diminua a proporção de fraude / não fraude e torne seu conjunto de dados mais representativo / utilizável?
Na GenieLog, estamos produzindo dados de teste para projetar e testar ferramentas de detecção de fraude. Em nosso gerador GEDIS Studio, podemos definir perfis regulares e perfis de fraudadores, instanciando cada categoria em uma proporção personalizável (por exemplo, 2% do cliente terá uso fraudulento de eventos gerados).
Fizemos isso com sucesso no uso de telecomunicações CDR ( http://www.gedis-studio.com/online-call-detail-records-cdr-generator.html ) e uso de cartão de crédito. Há um acesso disponível gratuitamente ao gerador on-line em http://www.data-generator.com
Tenho certeza de que, mesmo que a ferramenta não corresponda às suas necessidades, pelo menos a abordagem pode ser valiosa. Caso contrário, eu estaria interessado em ler qualquer objeção :)
Saudações
fonte
O conjunto de treinamento deve representar o conjunto de dados que seu aplicativo / algoritmo realmente enfrentará. Sugiro que você colete uma amostra representativa em vez de dividir o treinamento e o conjunto de testes com exatamente metade da fraude e metade da não-fraude. Mas verifique se o conjunto de treinamento contém exemplos positivos e negativos de fraude para o seu classificador ter um desempenho melhor.
fonte
Em situações em que uma classe específica é realmente uma minoria, sugiro o uso de detecção de categoria rara. Nesse caso específico de fraude / não fraude, a fraude é uma categoria rara. É um campo ativo de pesquisa - consulte Detecção de categoria rara
fonte
Eu acho que depende do seu conjunto de dados. Existem várias maneiras de lidar com conjuntos de dados desequilibrados, basta pesquisar, por exemplo, https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set . Eu acho que a maneira mais simples é usar a mesma distribuição de classes nos conjuntos de trem e teste.
Se você tiver uma quantidade realmente pequena de classe minoritária, tente a classificação de uma classe .
fonte