Estou executando uma regressão logística binária com 3 variáveis numéricas. Estou suprimindo a interceptação nos meus modelos, pois a probabilidade deve ser zero se todas as variáveis de entrada forem zero.
Qual é o número mínimo de observações que devo usar?
regression
logistic
user333
fonte
fonte
Respostas:
Há uma maneira de chegar a um ponto de partida sólido. Suponha que não houvesse covariáveis, de modo que o único parâmetro no modelo fosse a interceptação. Qual é o tamanho da amostra necessário para permitir que a estimativa da interceptação seja suficientemente precisa para que a probabilidade prevista esteja dentro de 0,1 da probabilidade verdadeira com 95% de confiança, quando a interceptação verdadeira estiver próxima de zero? A resposta é n = 96. E se houvesse uma covariável e fosse binária com uma prevalência de 0,5? Seriam necessários 96 indivíduos com x = 0 e 96 com x = 1 para ter um limite superior na margem de erro para estimar o Prob [Y = 1 | X = x] não exceda 0,1. A fórmula geral para o tamanho da amostra necessária para obter uma margem de erro deδ na estimativa de uma verdadeira probabilidade de p no nível de confiança de 0,95 é n = (1,96δ)2× p ( 1 - p ) . Conjuntop = 0,5 para o pior caso.
fonte
glmnet
isso para encontrar o preditor mais útil nesse estágio?Não há realmente um número mínimo de observações. Essencialmente, quanto mais observações você tiver, mais os parâmetros do seu modelo são restringidos pelos dados e mais confiante o modelo se torna. Quantas observações você precisa depende da natureza do problema e de quão confiante você precisa estar em seu modelo. Não acho que seja uma boa ideia confiar muito em "regras básicas" sobre esse tipo de coisa, mas use todos os dados que você puder obter e inspecione os intervalos de confiança / credibilidade nos parâmetros do seu modelo e nas previsões.
fonte
Atualização: não vi o comentário acima, de @David Harris, que é muito parecido com o meu. Desculpe por isso. Vocês podem excluir minha resposta se for muito semelhante.
Gostaria de publicar um segundo post sobre Dikran Marsupail e adicionar meus dois centavos.
Leve em consideração seu conhecimento prévio sobre os efeitos que você espera de suas variáveis independentes. Se você espera efeitos pequenos, precisará de uma amostra enorme. Se se espera que os efeitos sejam grandes, uma pequena amostra pode fazer o trabalho.
Como você deve saber, os erros padrão são uma função do tamanho da amostra; portanto, quanto maior o tamanho da amostra, menores os erros padrão. Assim, se os efeitos forem pequenos, ou seja, próximos de zero, apenas um pequeno erro padrão poderá detectar esse efeito, ou seja, para mostrar que é significativamente diferente de zero. Por outro lado, se o efeito for grande (longe de zero), mesmo um grande erro padrão produzirá resultados significativos.
Se você precisar de alguma referência, dê uma olhada no Blog de Andrew Gelmans.
fonte
Parece que, para obter uma estimativa aceitável, precisamos aplicar as regras que foram examinadas por outros pesquisadores. Eu concordo com as duas regras práticas acima (10 obs para cada var. E a fórmula de Harrell). Aqui, há outra questão de que os dados são revelados ou de preferência declarada. Hosmer e Lemeshow em seu livro forneceram uma regra para revelada e Louviere e Hensher em seu livro (Os métodos de preferência declarada) forneceram uma regra para dados de preferência declarada
fonte