Estou fazendo uma pesquisa usando regressão logística. 10 variáveis influenciam a variável dependente. Um dos itens acima é categórico (por exemplo, entrega expressa, entrega padrão, etc.). Agora, quero classificar essas categorias com base na "força" de seus efeitos na variável dependente.
Todos eles são significativos (pequeno valor p), mas acho que não posso simplesmente usar o valor das probabilidades para fins de classificação. De alguma forma, preciso descobrir se cada categoria também é significativamente diferente das outras categorias. Isso está correto?
Eu li sobre a possibilidade de centralizar a variável. Isso é realmente uma opção? Não quero que o restante do meu modelo seja afetado.
Saída de Stata para apoiar meu comentário no post de @ subra:
Average marginal effects Number of obs = 124773
Model VCE : OIM
Expression : Pr(return), predict()
dy/dx w.r.t. : ExpDel
------------------------------------------------------------------------------
| Delta-method
| dy/dx Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel | .1054605 .0147972 7.36 0.000 .0798584 .1378626
------------------------------------------------------------------------------
Você pode ajustar o modelo de regressão logística usando apenas 1 variável no momento e examinar o R2 ajustado.
Aquele que explica a maior parte da variação deve ter mais impacto no modelo ...
Estou apenas adivinhando, não tenho certeza de que é uma solução rigorosa ...
fonte
Essa é uma pergunta comum com várias respostas. O mais simples é usar recursos padronizados; o valor absoluto dos coeficientes que retornam pode, então, ser vagamente interpretado como 'maior' = 'mais influência' no log (probabilidades). Na maioria das vezes, o uso de pontuações padrão não deve afetar seus resultados gerais (a curva ROC deve ser a mesma; a matriz de confusão deve ser a mesma, desde que você escolha um limite de decisão comparável). Eu costumo calcular a regressão nos dois sentidos; uma vez usando pontuações brutas (para obter a equação de previsão que usarei) e uma segunda vez usando pontuações padronizadas para ver quais são as maiores.
Quanto aos preditores categóricos, presumo (mas não marquei) que o mesmo se aplica ao usar preditores normalizados.
Se você ainda não o fez, também deve considerar o uso de regularização: Laço / cume / rede elástica. Isso ajudará a abandonar recursos fracos, irrelevantes ou redundantes, deixando você com um modelo mais parcimonioso.
fonte