Suponha que eu esteja interessado em três classes , , . Mas meu conjunto de dados na verdade contém várias outras classes reais .c 2 c 3 ( c j ) n j = 4
A resposta óbvia é definir uma nova classe que se refira a todas as classes , mas desconfio que isso não seja uma boa ideia, pois os exemplos em serão raros e não muito semelhantes entre si.cjj>3 c 4
Para visualizar o que estou tentando dizer, suponha que eu tenha os dois espaços variáveis a seguir e as classes , , , sejam representadas em vermelho, til, verde e preto respectivamente. É assim que suspeito que meus dados seriam.c 2 c 3 c 4 = ⋃ n j = 4 c j
Existe alguma maneira padrão de abordar esse problema? Qual seria o classificador mais eficiente e por quê?
machine-learning
classification
h3h325
fonte
fonte
Respostas:
Eu usaria uma abordagem em duas etapas, usando a ideia da classe você mencionou.c4^
Na primeira etapa, use um classificador binário (treinado em todo o conjunto de dados) para decidir se uma amostra pertence à classe (ou seja, em qualquer classe não interessante). Para isso, você também pode dar uma olhada nos métodos de detecção mais externos , se as amostras pertencentes às classes "interessantes" forem muito diferentes das demais.c4^
Se o resultado for negativo, passe para a próxima etapa, um novo classificador treinado apenas em amostras pertencentes às classes e use essa previsão como sua última.c1,c2,c3
Eu acho que mesmo usando uma abordagem simples de agrupamento como primeiro passo (por exemplo, 4-agrupamento k-significa usar como valores iniciais do centróide o centroid médio para cada ) ainda seria útil.c1,c2,c3,^ c 4centj=∑xi∈D:yi=jxi∑xi∈D:yi=j1 c1,c2,c3,c4^
fonte