Eu sei que o tamanho da amostra afeta o poder em qualquer método estatístico. Existem regras para quantas amostras uma regressão precisa para cada preditor.
Também ouço muitas vezes que o número de amostras em cada categoria na variável dependente de uma regressão logística é importante. Por que é isso?
Quais são as consequências reais para o modelo de regressão logística quando o número de amostras em uma das categorias é pequeno (eventos raros)?
Existem regras práticas que incorporam o número de preditores e o número de amostras em cada nível da variável dependente?
logistic
assumptions
rare-events
Ótimo38
fonte
fonte
Respostas:
A regra geral para regressão linear (OLS) é que você precisa de pelo menos dados por variável ou estará "se aproximando" da saturação . No entanto, para regressão logística, a regra geral correspondente é que você deseja dados da categoria de ocorrência menos comum para cada variável. 1510 15
O problema aqui é que os dados binários simplesmente não contêm tanta informação quanto dados contínuos. Além disso, você pode ter previsões perfeitas com muitos dados, se você tiver apenas alguns eventos reais. Para dar um exemplo bastante extremo, mas que deve ser esclarecido imediatamente, considere um caso em que você tenha e tentei ajustar um modelo com preditores, mas teve apenas eventos. Você simplesmente não pode sequer estimar a associação entre a maioria de suas -variables e . 30 3 X YN=300 30 3 X Y
fonte