Minha pergunta é: precisamos padronizar o conjunto de dados para garantir que todas as variáveis tenham a mesma escala, entre [0,1], antes de ajustar a regressão logística. A fórmula é:
Meu conjunto de dados tem 2 variáveis, elas descrevem a mesma coisa para dois canais, mas o volume é diferente. Digamos que seja o número de visitas de clientes em duas lojas, e aqui está se um cliente compra. Porque um cliente pode visitar as duas lojas, ou duas vezes a primeira loja, uma vez a segunda loja antes de fazer uma compra. mas o número total de visitas de clientes para a 1ª loja é 10 vezes maior que a segunda loja. Quando eu me encaixo nessa regressão logística, sem padronização coef(store1)=37, coef(store2)=13
; se eu padronizar os dados, então coef(store1)=133, coef(store2)=11
. Algo assim. Qual abordagem faz mais sentido?
E se eu estiver ajustando um modelo de árvore de decisão? Eu sei que os modelos de estrutura em árvore não precisam de padronização, pois o próprio modelo irá ajustá-lo de alguma forma. Mas verificando com todos vocês.
fonte
C
alterado. Então você precisa escolherC
depois de padronizar os dados.Respostas:
A padronização não é necessária para a regressão logística. O principal objetivo da padronização de recursos é ajudar a convergência da técnica usada para otimização. Por exemplo, se você usar Newton-Raphson para maximizar a probabilidade, a padronização dos recursos agiliza a convergência. Caso contrário, você pode executar sua regressão logística sem nenhum tratamento de padronização nos recursos.
fonte
@ Aymen está certo, você não precisa normalizar seus dados para regressão logística. (Para informações mais gerais, pode ser útil ler este tópico do CV: Quando você deve centralizar seus dados e quando deve padronizar ?; Você também pode observar que sua transformação é mais comumente chamada de 'normalização', consulte: Como verificar distribuição é normalizada? ) Deixe-me abordar alguns outros pontos da pergunta.
Vale a pena notar aqui que, na regressão logística, seus coeficientes indicam o efeito de uma alteração de uma unidade em sua variável preditora nas chances logarítmicas de 'sucesso'. O efeito de transformar uma variável (como padronizar ou normalizar) é alterar o que chamamos de 'unidade' no contexto do nosso modelo. Seus dados brutos variaram em algum número de unidades na métrica original. Após a normalização, seus dados variaram de a . Ou seja, uma mudança de uma unidade agora significa passar da observação de menor valor para a observação de maior valor. A quantidade de aumento nas chances de log de sucesso não mudou. Com base nesses fatos, suspeito que sua primeira variável ( ) tenha sido0 1 133 / 37 ≈ 3.6 11 / 13 ≈ 0,85x 0 0 1 133/37≈3.6 unidades originais e sua segunda variável ( 11/13≈0.85
store1
store2
) abrange apenas unidades originais.fonte
Se você usa regressão logística com LASSO ou regressão de crista (como a classe Weka Logistic faz), deve. Como apontam Hastie, Tibshirani e Friedman (página 82 do pdf ou na página 63 do livro):
Também esta discussão faz.
fonte