Portanto, estou trabalhando com modelos de regressão logística em R. Embora ainda seja novo em estatística, sinto que já compreendi um pouco os modelos de regressão, mas ainda há algo que me incomoda:
Observando a imagem vinculada, você vê o resumo R impresso para um modelo de exemplo que eu criei. O modelo está tentando prever, se um email no conjunto de dados será recuperado ou não (variável binária isRefound
) e o conjunto de dados contiver duas variáveis intimamente relacionadas isRefound
, a saber, next24
e next7days
- estas também são binárias e informam se um email será clicado na próxima 24 horas / próximos 7 dias a partir do ponto atual nos logs.
O alto valor p deve indicar que o impacto que essa variável tem na previsão do modelo é bastante aleatório, não é? Com base nisso, não entendo por que a precisão das previsões dos modelos cai abaixo de 10% quando essas duas variáveis são deixadas de fora da fórmula de cálculo. Se essas variáveis mostram uma significância tão baixa, por que removê-las do modelo tem um impacto tão grande?
Atenciosamente, obrigado Rickyfox
EDITAR:
Primeiro eu removi apenas o next24, o que deve produzir um baixo impacto, porque o coef é muito pequeno. Como esperado, pouco mudou - não vou fazer upload de uma foto para isso.
A remoção dos próximos dias teve um grande impacto no modelo: aumento de AIC 200k, precisão de até 16% e recuperação de 73%
fonte
isRefound ~ day + next24
e omitir todas as outras variáveis?Respostas:
Basicamente, parece que você está tendo um problema de multicolinearidade. Há muito material disponível sobre isso, começando neste site ou na wikipedia.
Resumidamente, os dois preditores parecem estar genuinamente relacionados ao seu resultado, mas provavelmente também estão altamente correlacionados entre si (observe que com mais de duas variáveis, ainda é possível ter problemas de multicolinearidade sem fortes correlações bivariadas). Obviamente, isso faz muito sentido: todos os emails clicados dentro de 24 horas também foram clicados dentro de 7 dias (por definição) e a maioria dos emails provavelmente ainda não foram clicados (não em 24 horas e em 7 dias).
Uma maneira de mostrar isso no resultado que você apresentou é através dos erros / IC incrivelmente grandes para os coeficientes relevantes (a julgar pelo fato de você estar usando bigglm e por coeficientes minúsculos serem altamente significativos, parece que o tamanho da amostra deve ser mais do que suficiente para obter boas estimativas). Outras coisas que você pode fazer para detectar esse tipo de problema: observe as correlações aos pares, remova apenas uma das variáveis suspeitas (conforme sugerido por @Nick Sabbe), teste a significância para as duas variáveis em conjunto.
De maneira mais geral, altos valores de p não significam que o efeito seja pequeno ou aleatório, mas apenas que não há evidências de que o coeficiente seja diferente de 0. Também pode ser muito grande, você simplesmente não sabe (ou porque a amostra tamanho é muito pequeno ou porque há algum outro problema com o modelo).
fonte