Medidas de separabilidade de classe em problemas de classificação

11

Um exemplo de uma boa medida de separabilidade de classe em alunos discriminantes lineares é a razão de discriminante linear de Fisher. Existem outras métricas úteis para determinar se os conjuntos de recursos fornecem uma boa separação de classe entre as variáveis ​​de destino? Em particular, estou interessado em encontrar bons atributos de entrada multivariados para maximizar a separação de classes de destino e seria bom ter uma medida não linear / não paramétrica para determinar rapidamente se eles fornecem boa separabilidade.

tapinha
fonte
Eu li sobre a expansão Karhunen Loeve permite usar informações de classe para extração de recursos. Além disso, existem extensões ao PCA, como o uso da média ponderada das matrizes de covariância de classes em vez de uma matriz global. Além dessas informações, também estou interessado em possíveis respostas para sua pergunta.
Zoran

Respostas:

1

Medidas de importância variável (VIMs) de florestas aleatórias podem ser o que você está procurando. Uma breve visão geral sobre duas delas é apresentada em um artigo Visão geral da metodologia aleatória de florestas e orientações práticas com ênfase em biologia computacional e bioinformática por Boulesteix et al.

A idéia para o Gini VIM é que você obtenha algumas estatísticas de quantas vezes uma floresta aleatória fez uso de um determinado atributo como critério de divisão. Recursos informativos são escolhidos com mais frequência aqui.

A permutação VIM é baseada na ideia de que as estimativas de erro do classificador de RF são comparadas entre

  • o conjunto de dados original e
  • um conjunto de dados artificial em que os valores para UM atributo foram permutados.

A diferença de estimativa de erro resultante será grande para recursos importantes.

Tanto quanto me lembro, os VIMs também podem ser usados ​​para descobrir dependências entre os recursos.

Damian
fonte
0

Encontrar um conjunto de recursos ideal pode ser bastante computacionalmente caro. As principais categorias de soluções disponíveis podem ser agrupadas em dois conjuntos: vincular a um classificador específico (Wrappers) ou simples classificação de recursos com base em algum critério (métodos de filtro).

Com base em seus requisitos (rápido / não paramétrico / não linear), provavelmente você precisa de candidatos dos métodos Filter. Existem alguns exemplos daqueles descritos na literatura . Por exemplo, ganho de informação - que avalia o valor de um atributo medindo o ganho de informações em relação à classe; ou Correlação que avalia o valor de um atributo com base na correlação entre o atributo e a classe.

Os métodos do wrapper são vinculados a um classificador e podem ter um conjunto melhor de recursos para o classificador de interesse. Devido à sua natureza (treinamento / teste completo em cada iteração), eles não podem ser considerados rápidos ou não paramétricos, no entanto, podem lidar com relações não lineares de recursos (seu terceiro requisito). Um exemplo seria a eliminação recursiva de recursos, baseada em SVMs, que visa maximizar a margem entre as classes e pode lidar com relações não lineares de recursos (usando um kernel não linear).

iliasfl
fonte