Por que alguém deveria fazer uma transformação WOE de preditores categóricos em regressão logística?

10

Quando é útil a transformação do peso da evidência (WOE) das variáveis categóricas?

O exemplo pode ser visto na transformação WOE

(Assim, para uma resposta , & um preditor categórica com categorias, & sucessos de ensaios no âmbito do th categoria de este preditor, o AI para o th categoria é definido como $y$ $k$ $y_j$ $n_j$ $j$ $j$

\log \frac{y_{j}}{\sum_{j}^{k} y_{j}} \frac{\sum_{j}^{k} (n_{j} - y_{j})}{n_{j} - y_{j}}

$\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j}$

& a transformação consiste em codificar cada categoria do preditor categórico com seu WOE para formar um novo preditor contínuo.)

Gostaria de aprender o motivo pelo qual a transformação WOE ajuda na regressão logística. Qual é a teoria por trás disso?

logistic categorical-data regression-strategies Adão
fonte

6

No exemplo ao qual você vincula, o preditor categórico é representado por uma única variável contínua, assumindo um valor para cada nível igual às chances de log observadas da resposta nesse nível (mais uma constante):

\log \frac{y_{j}}{n_{j} - y_{j}} + \log \frac{\sum_{j}^{k} (n_{j} - y_{j})}{\sum_{j}^{k} y_{j}}

$\log \frac{y_j} {n_j-y_j} + \log \frac{\sum_j^k (n_j-y_j)}{\sum_j^k {y_j}}$

Essa ofuscação não serve a nenhum propósito em que eu possa pensar: você obterá a mesma resposta prevista como se tivesse usado a codificação fictícia usual; mas os graus de liberdade estão errados, invalidando várias formas úteis de inferência sobre o modelo.

Na regressão múltipla, com vários preditores categóricos a serem transformados, suponho que você calcule os WOEs para cada um usando probabilidades marginais de log. Isso mudará as respostas previstas; mas como a confusão não é levada em consideração - as probabilidades condicionais de log não são uma função linear das probabilidades marginais de log - não vejo motivo para supor que seja uma melhoria, e os problemas inferenciais permanecem.

Scortchi - Restabelecer Monica
fonte

Você pode explicar por que os graus de liberdade estão errados com o WOE? É apenas uma transformação, certo? E se tivéssemos várias variáveis categóricas e obtivemos o WOE para cada uma delas uma a uma? Na minha experiência, quando você tem muitas variáveis categóricas, alguns intervalos entre diferentes variáveis se sobrepõem muito e você começa a ver alguns coeficientes que são insignificantes. E você também precisa carregar vários coeficientes.

adam

11

(1) Uma transformação que depende da avaliação da relação dos preditores com a resposta - algo que deveria ser deixado para a regressão. Portanto, por exemplo, a estatística do teste da razão de verossimilhança não terá a mesma distribuição de quando uma transformação é pré-especificada. (2) Bom ponto! - uma regressão múltipla no WOEs não será equivalente à das variáveis fictícias (a menos que os modelos estejam saturados). (3) e daí? (4) Os coeficientes não são mais pesados que os WOEs.

Scortchi - Restabelece Monica

1

A classificação grosseira usando a medida do peso da evidência (WoE) tem a seguinte vantagem: a WoE exibe uma relação linear com o logaritmo natural da razão de chances, que é a variável dependente na regressão logística.
Portanto, a questão da especificação incorreta do modelo não surge na regressão logística quando usamos o WoE em vez dos valores reais da variável.

$ln(p/1-p)$ = + * + * + * $\alpha$ $\beta$ $WoE(Var1)$ $\gamma$ $WoE(Var2)$ $\eta$ $WoE(Var3 )$

Fonte: Em um dos PPTs, meu treinador me mostrou durante o treinamento da empresa.

Srikanth Guhan
fonte

11

"a especificação incorreta do modelo não surge na regressão logística quando usamos o WoE em vez dos valores reais da variável". Você pode explicar / provar isso matematicamente?

adam

Eu não sou de análise de risco de fundo, mas pg 131.132 deste livro parece dizer assim books.google.co.in/...

Srikanth Guhan

Também este link afirma o mesmo, embora nenhuma matemática seja explicada analyticbridge.com/forum/topics/…

Srikanth Guhan

Obrigado pelos links, mas é claramente falso que as chances marginais de log às quais a WoE é proporcional tenham uma relação linear com as chances condicionais de log com as quais a regressão logística se refere. Confundir com outros preditores pode até resultar em categorias de pedidos de WoE de maneira diferente.

Scortchi - Reinstate Monica

1

As transformações do WOE ajudam quando você tem dados numéricos e categóricos dos quais precisa combinar e valores ausentes nos quais gostaria de extrair informações. A conversão de tudo no WOE ajuda a "padronizar" muitos tipos diferentes de dados (até mesmo dados ausentes) na mesma escala de chances de log. Esta postagem do blog explica as coisas razoavelmente bem: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

O resumo da história é que a regressão logística com o WOE deve ser apenas (e é) chamada de classificador semi-ingênuo bayesiano (SNBC). Se você está tentando entender o algoritmo, o nome SNBC é, para mim, muito mais informativo.

Stephened
fonte

Por que alguém deveria fazer uma transformação WOE de preditores categóricos em regressão logística?

Respostas: