Esta é uma pergunta sobre uma prática ou método seguido por alguns dos meus colegas. Ao fazer um modelo de regressão logística, vi pessoas substituindo variáveis categóricas (ou variáveis contínuas que são colocadas em bin) por seus respectivos pesos de evidência (WoE). Isso é supostamente feito para estabelecer uma relação monotônica entre o regressor e a variável dependente. Agora, tanto quanto eu entendo, uma vez que o modelo é feito, as variáveis na equação NÃO são as variáveis no conjunto de dados. Em vez disso, as variáveis na equação agora são do tipo de importância ou peso das variáveis na segregação da variável dependente !
Minha pergunta é: como interpretamos agora o modelo ou os coeficientes do modelo? Por exemplo, para a seguinte equação:
podemos dizer que é o aumento relativo na razão de ímpares para 1 unidade de aumento na variável x 1 .
Mas se a variável for substituída por sua WoE, a interpretação será alterada para: aumento relativo na razão de ímpares para aumento de 1 unidade na IMPORTÂNCIA / PESO da variável
Eu já vi essa prática na internet, mas em nenhum lugar encontrei resposta para essa pergunta. Este link desta comunidade está relacionado a uma consulta semelhante, onde alguém escreveu:
O WoE exibe uma relação linear com o logaritmo natural do odds ratio, que é a variável dependente na regressão logística. Portanto, a questão da especificação incorreta do modelo não surge na regressão logística quando usamos WoE em vez dos valores reais da variável.
Mas ainda não entendi a explicação. Por favor, ajude-me a entender o que estou perdendo.
Respostas:
O método WoE consiste em duas etapas:
1 - dividir a variável (contínua) em poucas categorias ou agrupar a variável (discreta) em poucas categorias (e nos dois casos você assume que todas as observações em uma categoria têm efeito "igual" na variável dependente)
2 - para calcular a WoE valor para cada categoria (os valores x originais são substituídos pelos valores WoE)
A transformação WoE tem (pelo menos) três efeitos positivos:
1) Pode transformar uma variável independente para estabelecer um relacionamento monotônico com a variável dependente. Na verdade, faz mais do que isso - para garantir um relacionamento monotônico, seria suficiente "recodificá-lo" a qualquer medida ordenada (por exemplo, 1,2,3,4 ...), mas a transformação WoE realmente ordena as categorias em uma "logística" "escala natural para regressão logística
2) Para variáveis com muitos valores discretos (pouco povoados), eles podem ser agrupados em categorias (densamente povoados) e a WoE pode ser usada para expressar informações de toda a categoria
3) O efeito (univariado) de cada categoria na variável dependente pode ser simplesmente comparado entre categorias e entre variáveis porque a WoE é um valor padronizado (por exemplo, você pode comparar a WoE de pessoas casadas com a WoE de trabalhadores manuais)
Ele também tem (pelo menos) três desvantagens:
1) Perda de informação (variação) devido à exclusão de poucas categorias
2) É uma medida "univariada", por isso não leva em consideração a correlação entre variáveis independentes
3) É fácil manipular (ajustar demais) o efeito das variáveis de acordo com a forma como as categorias são criadas
Convencionalmente, os betas da regressão (onde x foi substituído por WoE) não são interpretados per se, mas são multiplicados com WoE para obter uma "pontuação" (por exemplo, beta para a variável "estado civil" pode ser multiplicado por WoE de grupo "pessoas casadas" para ver a pontuação de pessoas casadas; o beta da variável "ocupação" pode ser multiplicado pelo WoE de "trabalhadores manuais" para ver a pontuação de trabalhadores manuais. se você estiver interessado na pontuação de trabalhadores manuais casados, você soma essas duas pontuações e vê quanto é o efeito no resultado). Quanto maior a pontuação, maior a probabilidade de um resultado igual a 1.
fonte
O racional para usar o WOE na regressão logística é gerar o que às vezes é chamado de classificador semi-ingênuo bayesiano (SNBC). O início desta postagem no blog explica muito bem as coisas: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Os parâmetros beta no modelo são o viés linear de cada efeito ingênuo (também conhecido como peso da evidência) devido à presença de outros preditores e podem ser interpretados como a mudança linear nas chances logarítmicas dos preditores específicos devido à presença de outros preditores.
fonte
O Weight of Evidence (WoE) é uma técnica poderosa para realizar transformação e seleção variáveis. É amplamente utilizado na pontuação de crédito para medir a separação entre bons e maus clientes (variáveis). Vantagens :: - Manipula valores ausentes Manipula discrepantes, a transformação é baseada no valor logrítmico da distribuição. Não há necessidade de variáveis fictícias, usando a técnica de binning adequada, pois pode estabelecer um relacionamento monotônico entre o independente e o dependente.
mono_bin () = usado para variáveis numéricas. char_bin () = usado para variáveis de caracteres.
fonte