Eu tenho três recursos que eu uso para resolver um problema de classificação. Originalmente, esses recursos produziam valores booleanos, para que eu pudesse avaliar sua redundância observando o quanto os conjuntos de classificações positivas e negativas se sobrepõem. Agora, ampliei os recursos para produzir valores reais (pontuações) e gostaria de analisar sua redundância novamente, mas estou completamente perdido em como fazer isso. Alguém pode me fornecer um ponteiro ou uma idéia de como fazer isso?
Sei que essa pergunta é muito vaga, porque não tenho uma compreensão muito forte das estatísticas. Portanto, se você não tiver uma resposta para mim, talvez tenha algumas perguntas que possam me ajudar a entender melhor.
Edit: Atualmente, estou navegando na Wikipedia sobre o assunto, tenho a sensação de que o que quero é um coeficiente de correlação, mas ainda não tenho certeza se essa é a abordagem correta e qual dos muitos coeficientes disponíveis é apropriado.
Edit 2: No caso booleano, criei para cada recurso o conjunto de amostras para o qual era verdadeiro. Em seguida, a correlação entre dois recursos foi o tamanho da interseção desses conjuntos sobre o tamanho da união desses conjuntos. Se esse valor for 1, eles serão completamente redundantes, porque sempre o mesmo. Se for 0, eles nunca serão os mesmos.
fonte
Respostas:
Isso soa como um problema de seleção de recursos; se esse for o caso, acho que você deseja calcular as informações mútuas entre todos os subconjuntos de recursos e a saída de classificação. O subconjunto com as informações mútuas mais altas será o conjunto de recursos que contém mais 'informações' sobre a classificação resultante do registro.
Se você tiver apenas três recursos, poderá calcular todos os subconjuntos possíveis em um período de tempo razoável; se seu conjunto de recursos aumentar, precisará aproximar isso (normalmente usando uma abordagem gananciosa: adote o recurso com o MI mais alto a cada etapa )
fonte