Como abordar um problema de classificação em que uma das classes é definida por "nenhuma das outras"

9

Suponha que eu esteja interessado em três classes , , . Mas meu conjunto de dados na verdade contém várias outras classes reais .c 2 c 3 ( c j ) n j = 4c1c2c3(cj)j=4n

A resposta óbvia é definir uma nova classe que se refira a todas as classes , mas desconfio que isso não seja uma boa ideia, pois os exemplos em serão raros e não muito semelhantes entre si.cjj>3 c 4c^4cjj>3c^4

Para visualizar o que estou tentando dizer, suponha que eu tenha os dois espaços variáveis ​​a seguir e as classes , , , sejam representadas em vermelho, til, verde e preto respectivamente. É assim que suspeito que meus dados seriam.c 2 c 3 c 4 = n j = 4 c jc1c2c3c^4=j=4ncj

insira a descrição da imagem aqui

Existe alguma maneira padrão de abordar esse problema? Qual seria o classificador mais eficiente e por quê?

h3h325
fonte
Considere o uso de descanso de um vs. en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest
Dal
11
Você pode explorar modelos positivos não rotulados . Parece um problema semelhante, exceto que é multiclasse, não binária como a maioria dos problemas de PU.
Ricardo Cruz

Respostas:

4

Eu usaria uma abordagem em duas etapas, usando a ideia da classe você mencionou.c4^

Na primeira etapa, use um classificador binário (treinado em todo o conjunto de dados) para decidir se uma amostra pertence à classe (ou seja, em qualquer classe não interessante). Para isso, você também pode dar uma olhada nos métodos de detecção mais externos , se as amostras pertencentes às classes "interessantes" forem muito diferentes das demais.c4^

Se o resultado for negativo, passe para a próxima etapa, um novo classificador treinado apenas em amostras pertencentes às classes e use essa previsão como sua última.c1,c2,c3

Eu acho que mesmo usando uma abordagem simples de agrupamento como primeiro passo (por exemplo, 4-agrupamento k-significa usar como valores iniciais do centróide o centroid médio para cada ) ainda seria útil.c1,c2,c3,^ c 4centj=xiD:yi=jxixiD:yi=j1c1,c2,c3,c4^

Bogas
fonte
A sugestão de Bogas é ótima se você não tiver muita sobreposição de classe. Caso contrário, escolha um modelo com várias etiquetas.
Ricardo Cruz