Eu tenho os dados com variáveis categóricas e variáveis contínuas, mas é a necessidade de encontrar o valor da informação na análise de dados explicativa.
Apenas indique o motivo pelo qual estamos calculando o valor da informação para cada variável no início da análise dos dados e qual será o ponto de corte do VALOR DA INFORMAÇÃO para cuidar da análise
data-visualization
user43247
fonte
fonte
Respostas:
De um modo geral, informações sobre o valor fornece uma medida de quão bem uma variável é capaz de distinguir entre uma resposta binária (por exemplo, "bom" versus "mau") em alguma variável alvo . A idéia é que, se uma variável tiver um Valor baixo da informação, ela pode não ser suficiente para classificar a variável de destino e, portanto, é removida como uma variável explicativa.Y XX Y X
Para ver como isso funciona, deixe o ser agrupado em compartimentos. Cada corresponde a um que pode assumir um dos dois valores, digamos 0 ou 1. Em seguida, para os compartimentos , ,nX n x∈X y∈Y Xi 1≤i≤n
Onde
1 X i ) / ( # 1 X ) = 1 igi=(# de 's em de ' s em a proporção de 's no compartimento versus todos os compartimentos1 Xi)/(# 1 X)= 1 i
X i I V < 0,3ln(gi/bi) também é conhecido como o Peso da evidência (para a posição ). Os valores de corte podem variar e a seleção é subjetiva. Costumo usar (como faz [1] abaixo).Xi IV<0.3
No contexto da pontuação de crédito, esses dois recursos devem ajudar:
[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf.
[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf.
fonte