Por que calculamos o valor da informação?

10

Eu tenho os dados com variáveis ​​categóricas e variáveis ​​contínuas, mas é a necessidade de encontrar o valor da informação na análise de dados explicativa.

Apenas indique o motivo pelo qual estamos calculando o valor da informação para cada variável no início da análise dos dados e qual será o ponto de corte do VALOR DA INFORMAÇÃO para cuidar da análise

user43247
fonte
2
Por favor, diga-nos mais especificamente a que cálculo "valor da informação" se refere: não parece haver um significado quantitativo padronizado para esse termo que todos os leitores entenderão da mesma maneira. Ao editar sua pergunta, forneça mais contexto para nos ajudar a entender que tipo de análise você está discutindo e para o que está usando o "ponto de corte".
whuber

Respostas:

11

De um modo geral, informações sobre o valor fornece uma medida de quão bem uma variável é capaz de distinguir entre uma resposta binária (por exemplo, "bom" versus "mau") em alguma variável alvo . A idéia é que, se uma variável tiver um Valor baixo da informação, ela pode não ser suficiente para classificar a variável de destino e, portanto, é removida como uma variável explicativa.Y XXYX

Para ver como isso funciona, deixe o ser agrupado em compartimentos. Cada corresponde a um que pode assumir um dos dois valores, digamos 0 ou 1. Em seguida, para os compartimentos , ,nXnxXyYXi1in

IV=i=1n(gibi)ln(gi/bi)

Onde

bi=(# de 's em de ' s em a proporção de 's no compartimento versus todos os compartimentos0Xi)/(#0X)=0i

1 X i ) / ( # 1 X ) = 1 igi=(# de 's em de ' s em a proporção de 's no compartimento versus todos os compartimentos1Xi)/(#1X)=1i

X i I V < 0,3ln(gi/bi) também é conhecido como o Peso da evidência (para a posição ). Os valores de corte podem variar e a seleção é subjetiva. Costumo usar (como faz [1] abaixo).XiIV<0.3

No contexto da pontuação de crédito, esses dois recursos devem ajudar:

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf.

[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf.

desmanchar
fonte
1
Você conhece algum tipo de correção para calcular o valor das informações quando um dos compartimentos é bom ou ruim? Minha idéia é adicionar 1 a cada coluna de cada compartimento para corrigir essa situação. Gostaria de saber se esta é uma prática comum ou se existem outras preocupações teóricas. Estou principalmente considerando esse passo fora do pragmatismo.
usar o seguinte código
Eu já vi alguns profissionais removerem o termo com todos os aspectos bons ou ruins da soma, mas eu não recomendaria isso porque você estaria essencialmente anulando uma associação perfeita. Adicionar uma constante (digamos c) é uma solução interessante, mas a escolha, a constante e o tamanho da lixeira afetarão bastante o seu IV. Quando c se aproxima de 0 ou o tamanho do compartimento se aproxima do infinito, o IV se aproxima do infinito. Para obter um IV mais representativo, considere combinar compartimentos adjacentes que possuam todos os bens ou defeitos.
precisa saber é o seguinte