Como quantificar a redundância de recursos?

Eu tenho três recursos que eu uso para resolver um problema de classificação. Originalmente, esses recursos produziam valores booleanos, para que eu pudesse avaliar sua redundância observando o quanto os conjuntos de classificações positivas e negativas se sobrepõem. Agora, ampliei os recursos para produzir valores reais (pontuações) e gostaria de analisar sua redundância novamente, mas estou completamente perdido em como fazer isso. Alguém pode me fornecer um ponteiro ou uma idéia de como fazer isso?

Sei que essa pergunta é muito vaga, porque não tenho uma compreensão muito forte das estatísticas. Portanto, se você não tiver uma resposta para mim, talvez tenha algumas perguntas que possam me ajudar a entender melhor.

Edit: Atualmente, estou navegando na Wikipedia sobre o assunto, tenho a sensação de que o que quero é um coeficiente de correlação, mas ainda não tenho certeza se essa é a abordagem correta e qual dos muitos coeficientes disponíveis é apropriado.

Edit 2: No caso booleano, criei para cada recurso o conjunto de amostras para o qual era verdadeiro. Em seguida, a correlação entre dois recursos foi o tamanho da interseção desses conjuntos sobre o tamanho da união desses conjuntos. Se esse valor for 1, eles serão completamente redundantes, porque sempre o mesmo. Se for 0, eles nunca serão os mesmos.

correlation feature-selection Björn Pollex
fonte

ajudaria se você fornecesse exemplo de como definir redundância no caso booleano e que tipo de resultados você esperaria em caso contínuo

mpiktas

@mpiktas: edite minha pergunta em resposta ao seu comentário.

Björn Pollex

Respostas:

Isso soa como um problema de seleção de recursos; se esse for o caso, acho que você deseja calcular as informações mútuas entre todos os subconjuntos de recursos e a saída de classificação. O subconjunto com as informações mútuas mais altas será o conjunto de recursos que contém mais 'informações' sobre a classificação resultante do registro.

Se você tiver apenas três recursos, poderá calcular todos os subconjuntos possíveis em um período de tempo razoável; se seu conjunto de recursos aumentar, precisará aproximar isso (normalmente usando uma abordagem gananciosa: adote o recurso com o MI mais alto a cada etapa )

usuario
fonte

(+1) para informações mútuas. Observação adicional: a) Sugiro o ganho de informação como um caso especial de informação mútua. b) A seleção automática de recursos removerá não apenas os redundantes, mas também todos os recursos que tenham um impacto negativo na discriminação de classe.

Steffen

Obrigado! Isso parece muito promissor, vou dar uma olhada.

Björn Pollex