Em uma classificação simples, temos duas classes: classe-0 e classe-1. Em alguns dados, só tenho valores para a classe 1, portanto, nenhum para a classe 0. Agora, estou pensando em criar um modelo para modelar os dados da classe 1. Portanto, quando novos dados chegam, esse modelo é aplicado aos novos dados e encontra uma probabilidade de dizer qual a probabilidade desses novos dados se encaixarem nesse modelo. Comparando com um limite, posso filtrar dados inadequados.
Minhas perguntas são:
- Essa é uma boa maneira de trabalhar com esses problemas?
- Um classificador RandomForest pode ser usado para este caso? Preciso adicionar dados artificiais para a classe 0, que espero que o classificador considere ruído?
- Alguma outra idéia pode ajudar nesse problema?
fonte
Deixe-me adicionar mais algumas possibilidades:
A idéia geral é que definir um limite para a distância da classe permite que você decida se uma amostra pertence ou não a essa classe e independentemente de haver outras classes ou não.
O SIMCA é comum na literatura quimiométrica (embora raramente seja realmente configurado de uma classe).
Richard G. Brereton: Chemometrics for Pattern Recognition (Wiley, 2009) tem um capítulo inteiro sobre a classificação de uma classe.
fonte