Suponha que um modelo de regressão logística seja usado para prever se um comprador online comprará um produto (resultado: compra), depois que ele clicar em um conjunto de anúncios online (preditores: Ad1, Ad2 e Ad3).
O resultado é uma variável binária: 1 (comprada) ou 0 (não comprada). Os preditores também são variáveis binárias: 1 (clicada) ou 0 (não clicada). Portanto, todas as variáveis estão na mesma escala.
Se os coeficientes resultantes de Ad1, Ad2 e Ad3 forem 0,1, 0,2 e 03, podemos concluir que Ad3 é mais importante que Ad2 e Ad2 é mais importante que Ad1. Além disso, como todas as variáveis estão na mesma escala, os coeficientes padronizados e não padronizados devem ser os mesmos, e podemos concluir ainda que Ad2 é duas vezes importante que Ad1 em termos de influência no nível logit (log-odds).
Mas, na prática, nos preocupamos mais com como comparar e interpretar a importância relativa das variáveis em termos do nível p (probabilidade da compra), não do logit (log-odds).
Assim, a pergunta é: existe alguma abordagem para quantificar a importância relativa dessas variáveis em termos de p?
fonte
Respostas:
Para modelos lineares, você pode usar o valor absoluto das estatísticas t para cada parâmetro do modelo.
Além disso, você pode usar algo como um forrest aleatório e obter uma lista muito boa de importâncias de recursos.
Se você estiver usando o R check-out ( http://caret.r-forge.r-project.org/varimp.html ), se você estiver usando o python, confira ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )
EDITAR:
Como o logit não tem uma maneira direta de fazer isso, você pode usar uma curva ROC para cada preditor.
Um exemplo de como isso funciona em R é:
fonte
Como você estava solicitando especificamente uma interpretação na escala de probabilidade: Em uma regressão logística, a probabilidade estimada de sucesso é dada por
Uma pessoa que clicou apenas no anúncio 3:
No entanto, se a pessoa clicou no anúncio 1 ou no anúncio 3, mas também no anúncio 2 (se este for um cenário plasubil), as probabilidades se tornarão
Nesse caso, a mudança na probabilidade é de 0,05, mas geralmente essa mudança não é a mesma para diferentes combinações de níveis. (Você pode ver isso facilmente se, por exemplo, usar a mesma abordagem acima, mas com os coeficientes 0,1, 1,5, 0,3.) Assim, a importância de uma variável na escala de probabilidade depende dos níveis observados das outras variáveis. Isso pode dificultar (impossível?) Propor uma medida de importância variável absoluta e quantitativa na escala de probabilidade.
fonte