Um exemplo de uma boa medida de separabilidade de classe em alunos discriminantes lineares é a razão de discriminante linear de Fisher. Existem outras métricas úteis para determinar se os conjuntos de recursos fornecem uma boa separação de classe entre as variáveis de destino? Em particular, estou interessado em encontrar bons atributos de entrada multivariados para maximizar a separação de classes de destino e seria bom ter uma medida não linear / não paramétrica para determinar rapidamente se eles fornecem boa separabilidade.
11
Respostas:
Medidas de importância variável (VIMs) de florestas aleatórias podem ser o que você está procurando. Uma breve visão geral sobre duas delas é apresentada em um artigo Visão geral da metodologia aleatória de florestas e orientações práticas com ênfase em biologia computacional e bioinformática por Boulesteix et al.
A idéia para o Gini VIM é que você obtenha algumas estatísticas de quantas vezes uma floresta aleatória fez uso de um determinado atributo como critério de divisão. Recursos informativos são escolhidos com mais frequência aqui.
A permutação VIM é baseada na ideia de que as estimativas de erro do classificador de RF são comparadas entre
A diferença de estimativa de erro resultante será grande para recursos importantes.
Tanto quanto me lembro, os VIMs também podem ser usados para descobrir dependências entre os recursos.
fonte
Encontrar um conjunto de recursos ideal pode ser bastante computacionalmente caro. As principais categorias de soluções disponíveis podem ser agrupadas em dois conjuntos: vincular a um classificador específico (Wrappers) ou simples classificação de recursos com base em algum critério (métodos de filtro).
Com base em seus requisitos (rápido / não paramétrico / não linear), provavelmente você precisa de candidatos dos métodos Filter. Existem alguns exemplos daqueles descritos na literatura . Por exemplo, ganho de informação - que avalia o valor de um atributo medindo o ganho de informações em relação à classe; ou Correlação que avalia o valor de um atributo com base na correlação entre o atributo e a classe.
Os métodos do wrapper são vinculados a um classificador e podem ter um conjunto melhor de recursos para o classificador de interesse. Devido à sua natureza (treinamento / teste completo em cada iteração), eles não podem ser considerados rápidos ou não paramétricos, no entanto, podem lidar com relações não lineares de recursos (seu terceiro requisito). Um exemplo seria a eliminação recursiva de recursos, baseada em SVMs, que visa maximizar a margem entre as classes e pode lidar com relações não lineares de recursos (usando um kernel não linear).
fonte