Analisando coeficientes de regressão logística

12

Aqui está uma lista de coeficientes de regressão logística (o primeiro é um intercepto)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

Acho estranho como a interceptação é tão baixa e tenho um coeficiente igual a 0. Não tenho muita certeza de como interpretaria isso. O 0 indica que a variável específica não afeta o modelo? Mas a interceptação feita com a inserção de uma coluna é repentinamente realmente importante? Ou meus dados são apenas uma porcaria e o modelo não consegue se encaixar adequadamente.

shiu6rewgu
fonte
2
Qual é o intervalo ou desvio padrão de suas outras variáveis? Existe uma grande diferença entre o desvio padrão da variável com estimativa zero em comparação com as outras? Você pode esperar um coeficiente de zero se o desvio padrão for pequeno comparado aos outros (precisão numérica). Interceptar também significa basicamente que você tem variáveis ​​com médias elevadas (longe de zero). Centralizar suas variáveis ​​daria uma interceptação mais interpretável e não alteraria os betas para as outras variáveis ​​(erro de algoritmo iterativo à parte).
probabilityislogic
1
Se você subtrair 1027 de todos os valores da sexta variável, sua interceptação será bem próxima de 0. Isso faria você se sentir melhor? :-)
whuber
4
Mostrar uma lista de coeficientes como este, sem contexto algum, provavelmente diz "Joe tem 31, não é muito?" sem dizer 31 o que . 31 carros? Muito. 31 filhos? Um pedaço de muito! 31 dólares? Não muito.
Peter Flom - Restabelece Monica
1
Com relação ao coeficiente de zero: eu pude ver isso acontecendo como um artefato de colocar todos os seus coeficientes em XL antes de colá-los aqui - algo que parece consistente com o alto número de casas decimais que geralmente vemos. Talvez uma dessas células XL tenha sido ajustada para arredondar para números inteiros, produzindo o zero. Eu tive coisas assim acontecerem.
Rolando2
Obrigado a todos por sua contribuição! Eu realmente aprecio cada um de vocês! Um monte de minhas perguntas foram respondidas
shiu6rewgu

Respostas:

16

Você está recebendo algumas informações muito boas nos comentários, na minha opinião. Gostaria de saber se alguns fatos básicos sobre a regressão logística ajudariam a tornar essas coisas mais compreensíveis, portanto, com isso em mente, deixe-me declarar algumas coisas. Na regressão logística, os coeficientes estão na escala logística (daí o nome ...). Se você inserisse seus valores covariáveis ​​para uma observação, multiplique-os pelos coeficientes e some-os, obterá um logit .

logit=β0+β1x1+β2x2+...+βkxk
Um logit é um número que não faz sentido intuitivo para ninguém, por isso é muito difícil saber o que fazer com um número parece engraçado (por exemplo, muito alto ou muito baixo). A melhor maneira de entender essas coisas é convertê-las de sua escala original (logits) para uma que você possa entender, especificamente probabilidades. Para fazer isso, você pega seu logit e o exponencia. Isso significa que você pega o número e ( ) e aumenta para o poder do logit. Imagine que seu logit fosse 2: e 2e2.718281828
Isso fornecerá as probabilidades. Você pode converter as probabilidades em uma probabilidade dividindo as probabilidades por um mais as chances: 7.389056
e2=7.389056
As pessoas geralmente acham a probabilidade muito mais fácil de lidar.
7.3890561+7.389056=0.880797

Para o seu modelo, imagine que você teve uma observação na qual o valor de todas as suas variáveis ​​é exatamente 0, então todos os seus coeficientes desapareceriam e você ficaria apenas com o seu valor de interceptação. Se exponentiate seu valor, obtemos 0, quando as probabilidades (se fosse -700, as chances seriam , mas eu não posso conseguir o meu computador para me dar um valor para -1060, é muito pequeno dados os limites numéricos do meu software). Convertendo essas probabilidades em probabilidade, ( 0 / ( 1 + 0 )9.8×103050/(1+0)), nos dá 0 novamente. Portanto, o que sua saída está dizendo é que seu evento (seja o que for) simplesmente não ocorre quando todas as suas variáveis ​​são iguais a 0. É claro que depende do que estamos falando, mas não acho nada notável demais sobre isso. esta. Uma equação de regressão logística padrão (digamos, sem termo ao quadrado, por exemplo) pressupõe necessariamente que a relação entre uma covariável e a probabilidade de sucesso esteja aumentando monotonicamente ou diminuindo monotonicamente. Isso significa que ele sempre fica maior e maior (ou menor e menor) e, portanto, se você for suficientemente longe em uma direção, chegará a números tão pequenos que meu computador não pode diferenciá-los de zero. Esse é apenas o natureza da besta. Por acaso, para o seu modelo, ir muito longe está indo para onde seus valores covariáveis ​​são iguais a 0.

Quanto ao coeficiente de 0, significa que essa variável não tem efeito, como você sugere. Agora, é bastante razoável que uma variável não tenha efeito; no entanto, você basicamente nunca obterá um coeficiente de exatamente 0. Não sei por que ocorreu neste caso; os comentários oferecem algumas sugestões possíveis. Eu posso oferecer outra, que é que pode não haver variação nessa variável. Por exemplo, se você tivesse uma variável que codificasse sexo, mas apenas mulheres em sua amostra. Não sei se essa é a resposta real (R, por exemplo, retorna NAnesse caso, mas o software é diferente) - é apenas mais uma sugestão.

Repor a Monica
fonte
2
3067003746010460
10

Interpretando a interceptação

Você pode pensar em regressão logística como uma probabilidade posterior de ser um '1'. A interceptação representa um prior em categorias derivadas do conjunto de dados: especificamente, é a estimativa empírica do log (p (Y = 1) / p (Y = 0), por si só quando o modelo tem apenas uma interceptação, para os casos em as classes 'referência' quando existem covariáveis ​​categóricas e, nos casos em que as covariáveis ​​estão em 0 de maneira mais geral (mas menos interpretável). Portanto, seu número fortemente negativo provavelmente está lhe dizendo que '1s são raros entre os casos em sua amostra caracterizados por tendo todas as covariáveis ​​em 0. Novamente, pode não haver observações lá, então não vale a pena se preocupar com o valor de interceptação. discussão é bastante clara.

Devido a essa separação prática de preocupações entre os parâmetros, você pode corrigir o desequilíbrio de categoria treinando uma amostra mais equilibrada e ajustando apenas a interceptação . Veja King e Zeng para uma discussão completa.

conjugado
fonte
O link para "esta discussão" parece ter morrido. Alguma chance de recuperar esse link?
Alexey Grigorev
1
@ alexey-grigorev Atualizei o link UCLA
conjugateprior
e ganhou um voto negativo. Muito estranho.
conjugateprior