Substituindo Variáveis ​​por WoE (Peso de Evidência) na Regressão Logística

14

Esta é uma pergunta sobre uma prática ou método seguido por alguns dos meus colegas. Ao fazer um modelo de regressão logística, vi pessoas substituindo variáveis ​​categóricas (ou variáveis ​​contínuas que são colocadas em bin) por seus respectivos pesos de evidência (WoE). Isso é supostamente feito para estabelecer uma relação monotônica entre o regressor e a variável dependente. Agora, tanto quanto eu entendo, uma vez que o modelo é feito, as variáveis ​​na equação NÃO são as variáveis ​​no conjunto de dados. Em vez disso, as variáveis ​​na equação agora são do tipo de importância ou peso das variáveis ​​na segregação da variável dependente !

Minha pergunta é: como interpretamos agora o modelo ou os coeficientes do modelo? Por exemplo, para a seguinte equação:

registro(p1-p)=β0 0+β1x1

podemos dizer que é o aumento relativo na razão de ímpares para 1 unidade de aumento na variável x 1 .exp(β1) x1

Mas se a variável for substituída por sua WoE, a interpretação será alterada para: aumento relativo na razão de ímpares para aumento de 1 unidade na IMPORTÂNCIA / PESO da variável

Eu já vi essa prática na internet, mas em nenhum lugar encontrei resposta para essa pergunta. Este link desta comunidade está relacionado a uma consulta semelhante, onde alguém escreveu:

O WoE exibe uma relação linear com o logaritmo natural do odds ratio, que é a variável dependente na regressão logística. Portanto, a questão da especificação incorreta do modelo não surge na regressão logística quando usamos WoE em vez dos valores reais da variável.

Mas ainda não entendi a explicação. Por favor, ajude-me a entender o que estou perdendo.

SamRoy
fonte
é a razão de chances associada a um aumento de 1 unidade em x 1 , não "o aumento relativona razão de chances associada a um aumento de 1 unidade em x 1 ". exp(β1)x1x1
gung - Restabelece Monica
Não. Claramente, a fim de se livrar de você deve tomar relação dos LHS após exponenciaçãoβ0 0
SamRoy
As probabilidades são p / (1-p), portanto, se p (x) = exp (𝛽0 + 𝛽1x) ep (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1) observe que p (x + 1) = exp (𝛽0 + 𝛽1x) exp (𝛽1) e, finalmente, a razão de chances p (x + 1) / p (x) = exp (𝛽1) conforme declarado por stats.stackexchange.com/users/7290/gung
publicado em

Respostas:

11

O método WoE consiste em duas etapas:

1 - dividir a variável (contínua) em poucas categorias ou agrupar a variável (discreta) em poucas categorias (e nos dois casos você assume que todas as observações em uma categoria têm efeito "igual" na variável dependente)
2 - para calcular a WoE valor para cada categoria (os valores x originais são substituídos pelos valores WoE)

A transformação WoE tem (pelo menos) três efeitos positivos:
1) Pode transformar uma variável independente para estabelecer um relacionamento monotônico com a variável dependente. Na verdade, faz mais do que isso - para garantir um relacionamento monotônico, seria suficiente "recodificá-lo" a qualquer medida ordenada (por exemplo, 1,2,3,4 ...), mas a transformação WoE realmente ordena as categorias em uma "logística" "escala natural para regressão logística
2) Para variáveis ​​com muitos valores discretos (pouco povoados), eles podem ser agrupados em categorias (densamente povoados) e a WoE pode ser usada para expressar informações de toda a categoria
3) O efeito (univariado) de cada categoria na variável dependente pode ser simplesmente comparado entre categorias e entre variáveis ​​porque a WoE é um valor padronizado (por exemplo, você pode comparar a WoE de pessoas casadas com a WoE de trabalhadores manuais)

Ele também tem (pelo menos) três desvantagens:
1) Perda de informação (variação) devido à exclusão de poucas categorias
2) É uma medida "univariada", por isso não leva em consideração a correlação entre variáveis ​​independentes
3) É fácil manipular (ajustar demais) o efeito das variáveis ​​de acordo com a forma como as categorias são criadas

Convencionalmente, os betas da regressão (onde x foi substituído por WoE) não são interpretados per se, mas são multiplicados com WoE para obter uma "pontuação" (por exemplo, beta para a variável "estado civil" pode ser multiplicado por WoE de grupo "pessoas casadas" para ver a pontuação de pessoas casadas; o beta da variável "ocupação" pode ser multiplicado pelo WoE de "trabalhadores manuais" para ver a pontuação de trabalhadores manuais. se você estiver interessado na pontuação de trabalhadores manuais casados, você soma essas duas pontuações e vê quanto é o efeito no resultado). Quanto maior a pontuação, maior a probabilidade de um resultado igual a 1.

Cavalo do rei Salomão
fonte
1
(+1) Por que é uma vantagem recodificar um preditor para ter uma relação monotônica com a resposta?
Scortchi - Reinstate Monica
1
@ Scortchi Eu posso pensar em um exemplo - a variável independente é a altura das pessoas (medida em cm), as pessoas estão comprando roupas bonitas, a variável dependente seria um evento binário - se elas podem ou não comprar roupas adequadas e confortáveis. aparentemente, as pessoas muito pequenas e muito altas terão dificuldades em comprar roupas adequadas, enquanto as pessoas no meio poderiam fazê-lo facilmente. Com simples (sem interações e sem transformações) regressão só poderia modelar que a probabilidade de comprar roupas adequadas aumenta ou diminui com a altura de pessoas
cavalo do rei Salomão
1
As pessoas geralmente não usam transformações não monotônicas de preditores - e não na modelagem empírica. A inclusão de interações pode remover ou introduzir relacionamentos não monotônicos condicionais, como pode incluir outros preditores. Mas representar um preditor com uma função de base polinomial ou spline é uma maneira direta de permitir isso; e outra é classificá-lo e, a partir de então, tratá-lo como categórico, usando, por exemplo, codificação em nível de referência. A última, pelo menos, é consideravelmente mais simples que essa transformação de WoE; nenhum compartilha o prejuízo para ...
Scortchi - Restabelece Monica
1
... inferência e interpretabilidade resultantes da definição de um preditor em termos de resposta; e todos permitem que um relacionamento condicional não monotônico seja modelado mesmo quando o relacionamento marginal é monotônico (ou vice-versa). Suponho que estou entendendo que a transformação WoE me parece ser uma solução em busca de um problema. Existe uma classe de situações em que produz melhores previsões do que os métodos mais amplamente utilizados? - embora seja uma pergunta diferente da que você respondeu aqui (talvez stats.stackexchange.com/q/166816/17230 ).
Scortchi - Restabelecer Monica
E se você já tiver dados categóricos? então a única vantagem é "estabelecer um relacionamento monotônico"? Parece que o componente crítico de WoE é de fato no processo de binning
information_interchange
7

O racional para usar o WOE na regressão logística é gerar o que às vezes é chamado de classificador semi-ingênuo bayesiano (SNBC). O início desta postagem no blog explica muito bem as coisas: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Os parâmetros beta no modelo são o viés linear de cada efeito ingênuo (também conhecido como peso da evidência) devido à presença de outros preditores e podem ser interpretados como a mudança linear nas chances logarítmicas dos preditores específicos devido à presença de outros preditores.

Stephened
fonte
1

O Weight of Evidence (WoE) é uma técnica poderosa para realizar transformação e seleção variáveis. É amplamente utilizado na pontuação de crédito para medir a separação entre bons e maus clientes (variáveis). Vantagens :: - Manipula valores ausentes Manipula discrepantes, a transformação é baseada no valor logrítmico da distribuição. Não há necessidade de variáveis ​​fictícias, usando a técnica de binning adequada, pois pode estabelecer um relacionamento monotônico entre o independente e o dependente.

mono_bin () = usado para variáveis ​​numéricas. char_bin () = usado para variáveis ​​de caracteres.

Krishna75
fonte