A padronização é necessária antes de ajustar a regressão logística?

39

Minha pergunta é: precisamos padronizar o conjunto de dados para garantir que todas as variáveis ​​tenham a mesma escala, entre [0,1], antes de ajustar a regressão logística. A fórmula é:

ximin(xi)max(xi)min(xi)

Meu conjunto de dados tem 2 variáveis, elas descrevem a mesma coisa para dois canais, mas o volume é diferente. Digamos que seja o número de visitas de clientes em duas lojas, e aqui está se um cliente compra. Porque um cliente pode visitar as duas lojas, ou duas vezes a primeira loja, uma vez a segunda loja antes de fazer uma compra. mas o número total de visitas de clientes para a 1ª loja é 10 vezes maior que a segunda loja. Quando eu me encaixo nessa regressão logística, sem padronização coef(store1)=37, coef(store2)=13; se eu padronizar os dados, então coef(store1)=133, coef(store2)=11. Algo assim. Qual abordagem faz mais sentido?

E se eu estiver ajustando um modelo de árvore de decisão? Eu sei que os modelos de estrutura em árvore não precisam de padronização, pois o próprio modelo irá ajustá-lo de alguma forma. Mas verificando com todos vocês.

user1946504
fonte
10
Você não precisa padronizar, a menos que sua regressão seja regularizada. No entanto, às vezes ajuda na interpretabilidade e raramente dói.
alex
3
Não é a maneira usual de padronizar ? xix¯sd(x)
Peter Flom - Restabelece Monica
1
@ Peter, foi o que pensei antes, mas achei um artigo benetzkorn.com/2011/11/data-normalization-and-standardization/… >, parece que normalização e padronização são coisas diferentes. Uma é fazer a variação 0 média 1, a outra é redimensionar cada variável. É aí que eu fico confuso. Obrigado pela sua resposta.
user1946504
7
Para mim, a padronização torna a interpretação muito mais difícil.
precisa
2
Para esclarecer o que a @alex disse, dimensionar seus dados significa que o fator de regularização ideal é Calterado. Então você precisa escolher Cdepois de padronizar os dados.
akxlr

Respostas:

37

A padronização não é necessária para a regressão logística. O principal objetivo da padronização de recursos é ajudar a convergência da técnica usada para otimização. Por exemplo, se você usar Newton-Raphson para maximizar a probabilidade, a padronização dos recursos agiliza a convergência. Caso contrário, você pode executar sua regressão logística sem nenhum tratamento de padronização nos recursos.

Aymen
fonte
Obrigado pela sua resposta. Isso significa que a padronização é preferida? Como definitivamente queremos convergir o modelo e quando temos milhões de variáveis, é mais fácil implementar a lógica da padronização no pipeline de modelagem do que ajustar as variáveis ​​uma a uma, conforme necessário. Estou entendendo certo?
user1946504
4
isso depende do objetivo da análise. O software moderno pode lidar com dados bastante extremos sem padronizar. Se houver uma unidade natural para cada variável (anos, euros, kg, etc.), hesitaria em padronizar, embora sinta-se à vontade para mudar a unidade de kg para kg, por exemplo, toneladas ou gramas sempre que isso fizer mais sentido.
Maarten Buis
19

@ Aymen está certo, você não precisa normalizar seus dados para regressão logística. (Para informações mais gerais, pode ser útil ler este tópico do CV: Quando você deve centralizar seus dados e quando deve padronizar ?; Você também pode observar que sua transformação é mais comumente chamada de 'normalização', consulte: Como verificar distribuição é normalizada? ) Deixe-me abordar alguns outros pontos da pergunta.

Vale a pena notar aqui que, na regressão logística, seus coeficientes indicam o efeito de uma alteração de uma unidade em sua variável preditora nas chances logarítmicas de 'sucesso'. O efeito de transformar uma variável (como padronizar ou normalizar) é alterar o que chamamos de 'unidade' no contexto do nosso modelo. Seus dados brutos variaram em algum número de unidades na métrica original. Após a normalização, seus dados variaram de a . Ou seja, uma mudança de uma unidade agora significa passar da observação de menor valor para a observação de maior valor. A quantidade de aumento nas chances de log de sucesso não mudou. Com base nesses fatos, suspeito que sua primeira variável ( ) tenha sido0 1 133 / 37 3.6 11 / 13 0,85x01store1133/373.6unidades originais e sua segunda variável ( store2) abrange apenas unidades originais. 11/130.85

- Reinstate Monica
fonte
17

Se você usa regressão logística com LASSO ou regressão de crista (como a classe Weka Logistic faz), deve. Como apontam Hastie, Tibshirani e Friedman (página 82 do pdf ou na página 63 do livro):

As soluções de cumeeira não são equivalentes na escala das entradas e, portanto, normalmente as padronizamos antes de resolvê-las.

Também esta discussão faz.

eracle
fonte