Significado do valor-p das variáveis ​​do modelo de regressão logística

9

Portanto, estou trabalhando com modelos de regressão logística em R. Embora ainda seja novo em estatística, sinto que já compreendi um pouco os modelos de regressão, mas ainda há algo que me incomoda:

Observando a imagem vinculada, você vê o resumo R impresso para um modelo de exemplo que eu criei. O modelo está tentando prever, se um email no conjunto de dados será recuperado ou não (variável binária isRefound) e o conjunto de dados contiver duas variáveis ​​intimamente relacionadas isRefound, a saber, next24e next7days- estas também são binárias e informam se um email será clicado na próxima 24 horas / próximos 7 dias a partir do ponto atual nos logs.

O alto valor p deve indicar que o impacto que essa variável tem na previsão do modelo é bastante aleatório, não é? Com base nisso, não entendo por que a precisão das previsões dos modelos cai abaixo de 10% quando essas duas variáveis ​​são deixadas de fora da fórmula de cálculo. Se essas variáveis ​​mostram uma significância tão baixa, por que removê-las do modelo tem um impacto tão grande?

Atenciosamente, obrigado Rickyfox

insira a descrição da imagem aqui


EDITAR:

Primeiro eu removi apenas o next24, o que deve produzir um baixo impacto, porque o coef é muito pequeno. Como esperado, pouco mudou - não vou fazer upload de uma foto para isso.

A remoção dos próximos dias teve um grande impacto no modelo: aumento de AIC 200k, precisão de até 16% e recuperação de 73%

insira a descrição da imagem aqui

deemel
fonte
11
E se você tiver isRefound ~ day + next24e omitir todas as outras variáveis?
smillig

Respostas:

11

Basicamente, parece que você está tendo um problema de multicolinearidade. Há muito material disponível sobre isso, começando neste site ou na wikipedia.

Resumidamente, os dois preditores parecem estar genuinamente relacionados ao seu resultado, mas provavelmente também estão altamente correlacionados entre si (observe que com mais de duas variáveis, ainda é possível ter problemas de multicolinearidade sem fortes correlações bivariadas). Obviamente, isso faz muito sentido: todos os emails clicados dentro de 24 horas também foram clicados dentro de 7 dias (por definição) e a maioria dos emails provavelmente ainda não foram clicados (não em 24 horas e em 7 dias).

Uma maneira de mostrar isso no resultado que você apresentou é através dos erros / IC incrivelmente grandes para os coeficientes relevantes (a julgar pelo fato de você estar usando bigglm e por coeficientes minúsculos serem altamente significativos, parece que o tamanho da amostra deve ser mais do que suficiente para obter boas estimativas). Outras coisas que você pode fazer para detectar esse tipo de problema: observe as correlações aos pares, remova apenas uma das variáveis ​​suspeitas (conforme sugerido por @Nick Sabbe), teste a significância para as duas variáveis ​​em conjunto.

De maneira mais geral, altos valores de p não significam que o efeito seja pequeno ou aleatório, mas apenas que não há evidências de que o coeficiente seja diferente de 0. Também pode ser muito grande, você simplesmente não sabe (ou porque a amostra tamanho é muito pequeno ou porque há algum outro problema com o modelo).

Gala
fonte
11
Observe que a nova saída que você postou sugere que algumas outras variáveis ​​também podem estar envolvidas (ou que há outro problema que não vi) porque, caso contrário, você esperaria que o SE fosse muito menor quando apenas uma das duas variáveis ​​fosse incluída .
Gala #
Sim, já notei isso, mas obrigado. Eu vou fazer uma edição em um momento posterior para que você saiba o que poderia ter causado isso se você estiver interessado
deemel