Quais são as consequências de eventos raros na regressão logística?

9

Eu sei que o tamanho da amostra afeta o poder em qualquer método estatístico. Existem regras para quantas amostras uma regressão precisa para cada preditor.

Também ouço muitas vezes que o número de amostras em cada categoria na variável dependente de uma regressão logística é importante. Por que é isso?

Quais são as consequências reais para o modelo de regressão logística quando o número de amostras em uma das categorias é pequeno (eventos raros)?

Existem regras práticas que incorporam o número de preditores e o número de amostras em cada nível da variável dependente?

Ótimo38
fonte
stats.stackexchange.com/questions/306122/... stats.stackexchange.com/questions/178015/... (e um monte de perguntas sem respostas semelhantes)
b Kjetil Halvorsen
Eu acho que essa referência pode ajudar. Manel, S., Williams, HC, Ormerod, SJ, 2001. Avaliando modelos presença-ausência em ecologia: a necessidade de explicar a prevalência. J. Appl. Ecol. 38 (5), 921–931. dx.doi.org/10.1046/j.1365-2664.2001.00647.x Há muito mais sobre a modelagem de conjuntos de dados desequilibrados.
Rafa_Mas

Respostas:

11

A regra geral para regressão linear (OLS) é que você precisa de pelo menos dados por variável ou estará "se aproximando" da saturação . No entanto, para regressão logística, a regra geral correspondente é que você deseja dados da categoria de ocorrência menos comum para cada variável. 151015

O problema aqui é que os dados binários simplesmente não contêm tanta informação quanto dados contínuos. Além disso, você pode ter previsões perfeitas com muitos dados, se você tiver apenas alguns eventos reais. Para dar um exemplo bastante extremo, mas que deve ser esclarecido imediatamente, considere um caso em que você tenha e tentei ajustar um modelo com preditores, mas teve apenas eventos. Você simplesmente não pode sequer estimar a associação entre a maioria de suas -variables e . 30 3 X YN=300303XY

- Reinstate Monica
fonte
2
+1 Além disso, com eventos raros, você precisará de um número surpreendentemente grande de casos para estimar a interceptação verdadeira ( Harrell , na p. 233, diz que 96 casos no total têm 95% de confiança de ter probabilidade prevista dentro de 0,1 do valor verdadeiro quando verdadeira probabilidade é próxima de 0 em um modelo só de interceptação), e se houver amostragem desequilibrada você pode precisar de um eventos raros correção
EdM
1
Eventos raros podem influenciar a interceptação estimada. Eventos raros causam outros problemas específicos (inconsistência, instabilidade, problemas de convergência ao calcular o MLE)?
Great38
@ Great38, a questão "previsões perfeitas" nesta resposta pode levar a problemas com convergência e erros padrão amplos. Veja este post e outros sobre o efeito Hauck-Donner ou separação perfeita.
Edm
@ Great38, a questão é um pouco clara. Não há realmente nenhum problema com eventos raros. Se eu tiver dados, mas com 'apenas' eventos em um modelo com centenas de preditores, minha taxa de eventos será Mas não devo esperar ter problemas, apesar da minha baixa proporção de eventos e minhas centenas de preditores. 10 6 0,0000000000000110201060.00000000000001
gung - Restabelece Monica