Número mínimo de observações para regressão logística?

9

Estou executando uma regressão logística binária com 3 variáveis ​​numéricas. Estou suprimindo a interceptação nos meus modelos, pois a probabilidade deve ser zero se todas as variáveis ​​de entrada forem zero.

Qual é o número mínimo de observações que devo usar?

user333
fonte
10
Você precisaria de uma interceptação de -fazer isso! Um intercepto de 0 corresponde a uma probabilidade de11+exp(-0 0)=1/2, não 0 0, quando todas as variáveis ​​independentes forem zero.
whuber
2
Há uma discussão relacionada aqui: tamanho da amostra para regressão logística .
gung - Restabelece Monica

Respostas:

19

Há uma maneira de chegar a um ponto de partida sólido. Suponha que não houvesse covariáveis, de modo que o único parâmetro no modelo fosse a interceptação. Qual é o tamanho da amostra necessário para permitir que a estimativa da interceptação seja suficientemente precisa para que a probabilidade prevista esteja dentro de 0,1 da probabilidade verdadeira com 95% de confiança, quando a interceptação verdadeira estiver próxima de zero? A resposta é n = 96. E se houvesse uma covariável e fosse binária com uma prevalência de 0,5? Seriam necessários 96 indivíduos com x = 0 e 96 com x = 1 para ter um limite superior na margem de erro para estimar o Prob [Y = 1 | X = x] não exceda 0,1. A fórmula geral para o tamanho da amostra necessária para obter uma margem de erro deδ na estimativa de uma verdadeira probabilidade de p no nível de confiança de 0,95 é n=(1,96δ)2×p(1-p). Conjuntop=0,5 para o pior caso.

Frank Harrell
fonte
Agradeço sua ajuda neste fórum. Eu tenho ~ 90000 eventos e ~ 2000000 não eventos. Eu preciso de um modelo logístico com 65 preditores. Agora, como e quantas amostras posso coletar. na verdade, a minha pergunta está relacionada com stats.stackexchange.com/questions/268201/...
SIslam
2
Não há problema em montar 65 simultaneamente com o tamanho efetivo da amostra.
Frank Harrell 22/03
mas me sugeriram que muitas amostras podem causar problemas, pois eu estava ficando com psudo r ao quadrado tão baixo.
SIslam
3
Você está de brincadeira? Se oR2 é baixo usando uma amostra grande, que é a estimativa mais precisa da verdadeira R2e deixar cair as observações não melhorará o desempenho do modelo; só vai piorar. Complemente oR2 com outras métricas mais fáceis de entender, como a c-índice (probabilidade de concordância; área ROC). E, acima de tudo, ignore qualquer conselho para "equilibrar" as frequências da categoria de resultado.
Frank Harrell
Preciso usar glmnet isso para encontrar o preditor mais útil nesse estágio?
SIslam
9

Não há realmente um número mínimo de observações. Essencialmente, quanto mais observações você tiver, mais os parâmetros do seu modelo são restringidos pelos dados e mais confiante o modelo se torna. Quantas observações você precisa depende da natureza do problema e de quão confiante você precisa estar em seu modelo. Não acho que seja uma boa ideia confiar muito em "regras básicas" sobre esse tipo de coisa, mas use todos os dados que você puder obter e inspecione os intervalos de confiança / credibilidade nos parâmetros do seu modelo e nas previsões.

Dikran Marsupial
fonte
nenhum número mínimo! Eu tenho ~ 90000 evento e ~ 2000000 não eventos. Eu preciso de um modelo logístico com 65 regressores. Disseram-me que são muitas amostras, já que estou recebendo este ~ 90000 eventos e ~ 90000 não-eventos selecionados aleatoriamente entre ~ 2000000, tente diminuir a amostra enquanto as amostras são representativas. nesta fase, quantas amostras posso coletar e como. Na verdade eu estou me referindo stats.stackexchange.com/questions/268201/...
SIslam
3
Não faça isso #
Frank Harrell #
1
Concordo com @FrankHarrell (possivelmente por um motivo diferente?). O problema do "desequilíbrio de classe" tende a desaparecer quanto mais dados você coletar, e se você equilibrar artificialmente os dados de treinamento, estará dizendo ao modelo que as frequências de classe operacional são 50-50, o que provavelmente não é verdade, e você classificar a classe minoritária em uso operacional. Se você fizer isso, pós-processe as probabilidades de saída para ajustar a diferença nas frequências de treinamento e classe operacional (nesse ponto, provavelmente obterá essencialmente o mesmo resultado que o treinamento com todos os dados).
Dikran Marsupial
0

Atualização: não vi o comentário acima, de @David Harris, que é muito parecido com o meu. Desculpe por isso. Vocês podem excluir minha resposta se for muito semelhante.

Gostaria de publicar um segundo post sobre Dikran Marsupail e adicionar meus dois centavos.

Leve em consideração seu conhecimento prévio sobre os efeitos que você espera de suas variáveis ​​independentes. Se você espera efeitos pequenos, precisará de uma amostra enorme. Se se espera que os efeitos sejam grandes, uma pequena amostra pode fazer o trabalho.

Como você deve saber, os erros padrão são uma função do tamanho da amostra; portanto, quanto maior o tamanho da amostra, menores os erros padrão. Assim, se os efeitos forem pequenos, ou seja, próximos de zero, apenas um pequeno erro padrão poderá detectar esse efeito, ou seja, para mostrar que é significativamente diferente de zero. Por outro lado, se o efeito for grande (longe de zero), mesmo um grande erro padrão produzirá resultados significativos.

Se você precisar de alguma referência, dê uma olhada no Blog de Andrew Gelmans.

Manoel Galdino
fonte
1
O blog de Gelman está ficando muito grande :-). Você tem um post específico em mente?
whuber
@ Whuber, você está certo, eu deveria ter apontado para algo mais específico. Ele tem algumas apresentações talk recentes sobre os efeitos pequenos e comparações múltiplas, mas acho link a seguir é suficiente: stat.columbia.edu/~gelman/research/published/power4r.pdf
Manoel Galdino
1
que possuem links nos comentários está morto e não há nenhuma referência a um determinado post do blog mencionado
Baxx
0

Parece que, para obter uma estimativa aceitável, precisamos aplicar as regras que foram examinadas por outros pesquisadores. Eu concordo com as duas regras práticas acima (10 obs para cada var. E a fórmula de Harrell). Aqui, há outra questão de que os dados são revelados ou de preferência declarada. Hosmer e Lemeshow em seu livro forneceram uma regra para revelada e Louviere e Hensher em seu livro (Os métodos de preferência declarada) forneceram uma regra para dados de preferência declarada

Ahmad
fonte
2
Isso se beneficiaria de uma explicação mais completa e também de referências completas e precisas.
Nick Cox