Eu tenho um problema de classificação binária de vários recursos. Os coeficientes de uma regressão logística (regularizada) têm um significado interpretável?
Eu pensei que eles poderiam indicar o tamanho da influência, considerando que os recursos são normalizados de antemão. No entanto, no meu problema, os coeficientes parecem depender sensivelmente dos recursos que seleciono. Até o sinal dos coeficientes muda com os diferentes conjuntos de recursos escolhidos como entrada.
Faz sentido examinar o valor dos coeficientes e qual é a maneira correta de encontrar os coeficientes mais significativos e indicar seu significado em palavras ? Alguns modelos ajustados e seus sinais dos coeficientes estão errados - mesmo quando eles se encaixam nos dados?
(A correlação mais alta que tenho entre os recursos é de apenas 0,25, mas isso certamente desempenha um papel?)
fonte
Respostas:
Os coeficientes da saída têm um significado, embora não seja muito intuitivo para a maioria das pessoas e certamente não para mim. É por isso que as pessoas as mudam para odds ratio. No entanto, o log do odds ratio é o coeficiente; equivalentemente, os coeficientes exponenciados são os odds ratio.
Os coeficientes são mais úteis para se conectar a fórmulas que fornecem probabilidades previstas de estar em cada nível da variável dependente.
por exemplo, em
R
A estimativa de parâmetro para a idade é 1,64. O que isto significa? Bem, se você combiná-lo com a estimativa de parâmetro para a interceptação (-21.24), você pode obter uma fórmula que preveja a probabilidade de menarca:
fonte
Interpretar diretamente os coeficientes é difícil e pode ser enganoso. Você não tem garantias de como os pesos são atribuídos entre as variáveis.
Exemplo rápido, semelhante à situação que você descreve: trabalhei em um modelo de interação dos usuários com um site. Esse modelo incluiu duas variáveis que representam o número de "cliques" durante a primeira hora e durante a segunda hora de uma sessão do usuário. Essas variáveis são altamente correlacionadas entre si. Se ambos os coeficientes para essa variável forem positivos, poderíamos nos enganar facilmente e acreditar que talvez um coeficiente mais alto indique uma importância "mais alta". No entanto, adicionando / removendo outrosvariáveis, poderíamos facilmente terminar com um modelo em que a primeira variável tivesse sinal positivo e a outra negativa. O raciocínio a que chegamos foi que, como havia algumas correlações significativas (embora baixas) entre a maioria dos pares de variáveis disponíveis, não poderíamos ter nenhuma conclusão segura sobre a importância das variáveis usando os coeficientes (prazer em aprender com a comunidade se esta interpretação está correta).
Se você deseja obter um modelo onde é mais fácil interpretar uma idéia, seria usar Lasso (minimização da norma L1). Isso leva a soluções esparsas, onde as variáveis são menos correlacionadas entre si. No entanto, essa abordagem não escolheria facilmente as duas variáveis do exemplo anterior - uma seria zero.
Se você quiser apenas avaliar a importância de variáveis específicas ou conjuntos de variáveis, eu recomendaria usar diretamente alguma abordagem de seleção de recursos. Tais abordagens levam a percepções muito mais significativas e até classificações globais da importância das variáveis com base em algum critério.
fonte
Os coeficientes certamente têm um significado. Em alguns pacotes de software, o modelo pode ser direcionado de duas maneiras para produzir um dos dois tipos de coeficientes. Por exemplo, no Stata, pode-se usar o comando Logistic ou o comando logit; ao usar um, o modelo fornece coeficientes tradicionais, enquanto no outro, o modelo fornece razões de chances.
Você pode achar que um é muito mais significativo para você do que o outro.
Sobre sua pergunta de que "... os coeficientes parecem depender da sensibilidade ...".
Você está dizendo que os resultados dependem de quais variáveis você coloca no modelo?
Se sim, sim, isso é um fato da vida quando se faz uma análise de regressão. A razão para isso é que a análise de regressão está analisando vários números e processando-os de maneira automatizada.
Os resultados dependem de como as variáveis estão relacionadas entre si e de quais variáveis não são medidas. É tanto uma arte quanto uma ciência.
Além disso, se o modelo tem muitos preditores em comparação com o tamanho da amostra, os sinais podem mudar de uma maneira louca - acho que isso está dizendo que o modelo está usando variáveis que têm um pequeno efeito para "ajustar" suas estimativas daquelas que têm um grande efeito (como um botão de volume pequeno para fazer pequenas calibrações). Quando isso acontece, tendem a não confiar nas variáveis com pequenos efeitos.
Por outro lado, pode ser que os sinais mudem inicialmente quando você adiciona novos preditores, porque está se aproximando da verdade causal.
Por exemplo, vamos imaginar que o conhaque da Groenlândia possa ser ruim para a saúde, mas a renda é boa para a saúde. Se a renda é omitida e as pessoas mais ricas bebem conhaque, o modelo pode "captar" a influência da renda omitida e "dizer" que o álcool é bom para sua saúde.
Não tenha dúvidas, é um fato da vida que os coeficientes dependem das demais variáveis incluídas. Para saber mais, consulte "viés variável omitido" e "relacionamento falso". Se você nunca encontrou essas idéias antes, tente encontrar cursos de introdução às estatísticas que atendam às suas necessidades - isso pode fazer uma enorme diferença na execução dos modelos.
fonte