Como abordar um problema de classificação em que uma das classes é definida por "nenhuma das outras"

Suponha que eu esteja interessado em três classes , , . Mas meu conjunto de dados na verdade contém várias outras classes reais . $c_1$ $c_2$ $c_3$ $(c_j)_{j=4}^n$

A resposta óbvia é definir uma nova classe que se refira a todas as classes , mas desconfio que isso não seja uma boa ideia, pois os exemplos em serão raros e não muito semelhantes entre si. $\hat c_4$ $c_j$ $j>3$ $\hat c_4$

Para visualizar o que estou tentando dizer, suponha que eu tenha os dois espaços variáveis a seguir e as classes , , , sejam representadas em vermelho, til, verde e preto respectivamente. É assim que suspeito que meus dados seriam. $c_1$ $c_2$ $c_3$ $\hat c_4= \bigcup_{j=4}^n c_j$

Existe alguma maneira padrão de abordar esse problema? Qual seria o classificador mais eficiente e por quê?

machine-learning classification h3h325
fonte

Considere o uso de descanso de um vs. en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest

Dal

Você pode explorar modelos positivos não rotulados . Parece um problema semelhante, exceto que é multiclasse, não binária como a maioria dos problemas de PU.

Ricardo Cruz

Respostas:

Eu usaria uma abordagem em duas etapas, usando a ideia da classe você mencionou. $\hat{c_4}$

Na primeira etapa, use um classificador binário (treinado em todo o conjunto de dados) para decidir se uma amostra pertence à classe (ou seja, em qualquer classe não interessante). Para isso, você também pode dar uma olhada nos métodos de detecção mais externos , se as amostras pertencentes às classes "interessantes" forem muito diferentes das demais. $\hat{c_4}$

Se o resultado for negativo, passe para a próxima etapa, um novo classificador treinado apenas em amostras pertencentes às classes e use essa previsão como sua última. $c_1,c_2,c_3$

Eu acho que mesmo usando uma abordagem simples de agrupamento como primeiro passo (por exemplo, 4-agrupamento k-significa usar como valores iniciais do centróide o centroid médio para cada ) ainda seria útil. $cent_j = \frac{\sum\limits_{x_i\in D: y_i=j}x_i}{\sum\limits_{x_i\in D: y_i=j}1}$ $c_1,c_2,c_3, \hat{c_4}$

Bogas
fonte

A sugestão de Bogas é ótima se você não tiver muita sobreposição de classe. Caso contrário, escolha um modelo com várias etiquetas.

Ricardo Cruz

Este é um en.wikipedia.org/wiki/Cascading_classifiers

Emre