Aqui está uma lista de coeficientes de regressão logística (o primeiro é um intercepto)
-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
0
1.03152408392552
1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393
Acho estranho como a interceptação é tão baixa e tenho um coeficiente igual a 0. Não tenho muita certeza de como interpretaria isso. O 0 indica que a variável específica não afeta o modelo? Mas a interceptação feita com a inserção de uma coluna é repentinamente realmente importante? Ou meus dados são apenas uma porcaria e o modelo não consegue se encaixar adequadamente.
regression
logistic
shiu6rewgu
fonte
fonte
Respostas:
Você está recebendo algumas informações muito boas nos comentários, na minha opinião. Gostaria de saber se alguns fatos básicos sobre a regressão logística ajudariam a tornar essas coisas mais compreensíveis, portanto, com isso em mente, deixe-me declarar algumas coisas. Na regressão logística, os coeficientes estão na escala logística (daí o nome ...). Se você inserisse seus valores covariáveis para uma observação, multiplique-os pelos coeficientes e some-os, obterá um logit .
Isso fornecerá as probabilidades. Você pode converter as probabilidades em uma probabilidade dividindo as probabilidades por um mais as chances: 7.389056
Para o seu modelo, imagine que você teve uma observação na qual o valor de todas as suas variáveis é exatamente 0, então todos os seus coeficientes desapareceriam e você ficaria apenas com o seu valor de interceptação. Se exponentiate seu valor, obtemos 0, quando as probabilidades (se fosse -700, as chances seriam , mas eu não posso conseguir o meu computador para me dar um valor para -1060, é muito pequeno dados os limites numéricos do meu software). Convertendo essas probabilidades em probabilidade, ( 0 / ( 1 + 0 )9.8×10−305 0/(1+0) ), nos dá 0 novamente. Portanto, o que sua saída está dizendo é que seu evento (seja o que for) simplesmente não ocorre quando todas as suas variáveis são iguais a 0. É claro que depende do que estamos falando, mas não acho nada notável demais sobre isso. esta. Uma equação de regressão logística padrão (digamos, sem termo ao quadrado, por exemplo) pressupõe necessariamente que a relação entre uma covariável e a probabilidade de sucesso esteja aumentando monotonicamente ou diminuindo monotonicamente. Isso significa que ele sempre fica maior e maior (ou menor e menor) e, portanto, se você for suficientemente longe em uma direção, chegará a números tão pequenos que meu computador não pode diferenciá-los de zero. Esse é apenas o natureza da besta. Por acaso, para o seu modelo, ir muito longe está indo para onde seus valores covariáveis são iguais a 0.
Quanto ao coeficiente de 0, significa que essa variável não tem efeito, como você sugere. Agora, é bastante razoável que uma variável não tenha efeito; no entanto, você basicamente nunca obterá um coeficiente de exatamente 0. Não sei por que ocorreu neste caso; os comentários oferecem algumas sugestões possíveis. Eu posso oferecer outra, que é que pode não haver variação nessa variável. Por exemplo, se você tivesse uma variável que codificasse sexo, mas apenas mulheres em sua amostra. Não sei se essa é a resposta real (R, por exemplo, retorna
NA
nesse caso, mas o software é diferente) - é apenas mais uma sugestão.fonte
Interpretando a interceptação
Você pode pensar em regressão logística como uma probabilidade posterior de ser um '1'. A interceptação representa um prior em categorias derivadas do conjunto de dados: especificamente, é a estimativa empírica do log (p (Y = 1) / p (Y = 0), por si só quando o modelo tem apenas uma interceptação, para os casos em as classes 'referência' quando existem covariáveis categóricas e, nos casos em que as covariáveis estão em 0 de maneira mais geral (mas menos interpretável). Portanto, seu número fortemente negativo provavelmente está lhe dizendo que '1s são raros entre os casos em sua amostra caracterizados por tendo todas as covariáveis em 0. Novamente, pode não haver observações lá, então não vale a pena se preocupar com o valor de interceptação. discussão é bastante clara.
Devido a essa separação prática de preocupações entre os parâmetros, você pode corrigir o desequilíbrio de categoria treinando uma amostra mais equilibrada e ajustando apenas a interceptação . Veja King e Zeng para uma discussão completa.
fonte