Seleção de recursos usando informações mútuas no Matlab

10

Estou tentando aplicar a idéia de informações mútuas à seleção de recursos, conforme descrito nestas notas de aula (na página 5).

Minha plataforma é Matlab. Um problema que encontro ao calcular informações mútuas a partir de dados empíricos é que o número é sempre tendencioso para cima. Encontrei cerca de 3 a 4 arquivos diferentes para calcular o MI no Matlab Central e todos eles fornecem grandes números (como> 0,4) quando eu alimento variáveis ​​aleatórias independentes.

Não sou especialista, mas o problema parece ser que, se você simplesmente usar densidades conjuntas e marginais para calcular o MI, o viés será introduzido no processo, porque o MI é por definição positivo. Alguém tem conselhos práticos sobre como estimar informações mútuas com precisão?

Uma questão relacionada é, na prática, como as pessoas realmente usam o MI para selecionar recursos? Não é óbvio para mim como chegar a um valor limite, uma vez que, em teoria, o MI é ilimitado. Ou as pessoas apenas classificam os recursos pelo MI e aceitam os principais recursos?

entropia
fonte
Ninguém está interessado neste tópico?
Você já tem uma resposta para isso?
entropia
Infelizmente não. Você também está tendo o mesmo problema?

Respostas:

3

Esse é o problema do viés de amostragem limitado .

As pequenas estimativas amostrais das densidades são barulhentas e essa variação induz correlações espúrias entre as variáveis ​​que aumentam o valor estimado da informação.

(R-1 1)(S-1 1)/2Nem22Nem(2)Euχ2(R-1 1)(S-1 1)

Alguns pacotes que implementam essas técnicas no Matlab incluem infotoolbox e Spike Train Analysis Toolkit .

Para o caso contínuo, os estimadores baseados nas distâncias dos vizinhos mais próximos reduzem o problema.

tropeço
fonte
1

Usei divergência KL e, com tamanhos de amostra apropriados, obtenho valores 0 para locais onde as distribuições têm igual probabilidade.

Eu sugiro que você reformule seu MI em termos de divergência KL.

EngrStudent
fonte
1

Você deve usar um algoritmo de Informação Mútua Parcial para a seleção da variável de entrada (recurso). É baseado nos conceitos de IM e na estimativa da densidade de probabilidade. Por exemplo em:

  1. O PMI baseado em kernel : (+) possui um critério de parada (Critérios de informação de Akaike) (-) maior complexidade
  2. PMI baseado em kNN : (-) não possui um critério de parada (+) menor complexidade

Usei o PMI para reduzir o número de entradas de redes neurais à medida que aumentam a complexidade e introduzem outros problemas. Você pode encontrar uma visão geral completa dos algoritmos de seleção de variáveis ​​de entrada (IVS) na publicação Revisão dos métodos de seleção de variáveis ​​de entrada para redes neurais artificiais . Você pode usar o IVS para SVM e outros. Para encurtar as coisas, use o PMI.

user2034223
fonte