Quando é útil a transformação do peso da evidência (WOE) das variáveis categóricas?
O exemplo pode ser visto na transformação WOE
(Assim, para uma resposta , & um preditor categórica com categorias, & sucessos de ensaios no âmbito do th categoria de este preditor, o AI para o th categoria é definido comok y j n j j j
& a transformação consiste em codificar cada categoria do preditor categórico com seu WOE para formar um novo preditor contínuo.)
Gostaria de aprender o motivo pelo qual a transformação WOE ajuda na regressão logística. Qual é a teoria por trás disso?
A classificação grosseira usando a medida do peso da evidência (WoE) tem a seguinte vantagem: a WoE exibe uma relação linear com o logaritmo natural da razão de chances, que é a variável dependente na regressão logística.
Portanto, a questão da especificação incorreta do modelo não surge na regressão logística quando usamos o WoE em vez dos valores reais da variável.
α β W o E ( V a r 1 ) γ W o E ( V a r 2 ) η W o E ( V a r 3 )ln(p/1−p) = + * + * + *α β WoE(Var1) γ WoE(Var2) η WoE(Var3)
Fonte: Em um dos PPTs, meu treinador me mostrou durante o treinamento da empresa.
fonte
As transformações do WOE ajudam quando você tem dados numéricos e categóricos dos quais precisa combinar e valores ausentes nos quais gostaria de extrair informações. A conversão de tudo no WOE ajuda a "padronizar" muitos tipos diferentes de dados (até mesmo dados ausentes) na mesma escala de chances de log. Esta postagem do blog explica as coisas razoavelmente bem: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
O resumo da história é que a regressão logística com o WOE deve ser apenas (e é) chamada de classificador semi-ingênuo bayesiano (SNBC). Se você está tentando entender o algoritmo, o nome SNBC é, para mim, muito mais informativo.
fonte