Quero criar um modelo logístico a partir dos dados da minha pesquisa. É uma pequena pesquisa de quatro colônias residenciais nas quais apenas 154 entrevistados foram entrevistados. Minha variável dependente é "transição satisfatória para o trabalho". Eu descobri que, dos 154 entrevistados, 73 disseram ter feito uma transição satisfatória para o trabalho, enquanto o restante não. Portanto, a variável dependente é de natureza binária e eu decidi usar a regressão logística. Eu tenho sete variáveis independentes (três contínuas e quatro nominais). Uma diretriz sugere que deve haver 10 casos para cada variável preditora / independente (Agresti, 2007). Com base nesta diretriz, sinto que não há problema em executar a regressão logística.
Estou certo? Caso contrário, informe-me como decidir o número de variáveis independentes?
fonte
1
) e 90 não-casos (os0
), a regra diz "inclua apenas 1 preditor". Mas e se eu modelar o0
's' em vez do1
's' e depois usar o recíproco dos índices de chances estimados? Eu poderia incluir 9 preditores? Isso não faz sentido para mim.Respostas:
Existem várias questões aqui.
Normalmente, queremos determinar um tamanho mínimo de amostra para atingir um nível minimamente aceitável de poder estatístico . O tamanho da amostra necessário é uma função de vários fatores, principalmente a magnitude do efeito que você deseja diferenciar de 0 (ou qualquer valor nulo que esteja usando, mas 0 é o mais comum) e a probabilidade mínima de capturar esse efeito. quer ter. Trabalhando sob essa perspectiva, o tamanho da amostra é determinado por uma análise de potência.
Outra consideração é a estabilidade do seu modelo (como observa o @cbeleites). Basicamente, como a relação de parâmetros estimados para o número de dados se aproxima de 1, o modelo estará saturada, e vai necessariamente ser overfit (a menos que haja, de fato, não aleatoriedade no sistema). A regra geral da proporção de 1 a 10 vem dessa perspectiva. Observe que o poder adequado geralmente cobre essa preocupação, mas não o contrário.
A regra de 1 a 10 vem do mundo da regressão linear, no entanto, e é importante reconhecer que a regressão logística tem complexidades adicionais. Uma questão é que a regressão logística funciona melhor quando as porcentagens de 1 e 0 são aproximadamente 50% / 50% (como @andrea e @psj discutem nos comentários acima). Outra questão a se preocupar é a separação . Ou seja, você não deseja que todos os seus 1 sejam reunidos em um extremo de uma variável independente (ou alguma combinação deles) e todos os 0 no outro extremo. Embora isso pareça uma boa situação, porque facilitaria a previsão perfeita, na verdade, faz com que o processo de estimativa de parâmetros exploda. (@ Scortchi tem uma excelente discussão sobre como lidar com a separação na regressão logística aqui:Como lidar com a separação perfeita na regressão logística? ) Com mais IVs, isso se torna mais provável, mesmo que as verdadeiras magnitudes dos efeitos sejam mantidas constantes, e especialmente se suas respostas forem desequilibradas. Assim, você pode facilmente precisar de mais de 10 dados por IV.
Uma última questão com essa regra de ouro é que ela assume que seus IVs são ortogonais . Isso é razoável para experimentos projetados, mas com estudos observacionais como o seu, seus IVs quase nunca serão aproximadamente ortogonais. Existem estratégias para lidar com essa situação (por exemplo, combinar ou descartar IVs, realizar uma análise de componentes principais primeiro etc.), mas se não for abordada (o que é comum), você precisará de mais dados.
Uma pergunta razoável, então, é qual deve ser o seu N mínimo e / ou o tamanho da amostra é suficiente? Para resolver isso, sugiro que você use os métodos que @cbeleites discute; confiar na regra de 1 a 10 será insuficiente.
fonte
Normalmente, uso uma regra 15: 1 (proporção de min (eventos, não eventos) para o número de parâmetros candidatos no modelo). Trabalhos mais recentes descobriram que, para uma validação mais rigorosa, é necessário 20: 1. Mais informações podem ser encontradas nos folhetos de meus cursos, linkados em http://biostat.mc.vanderbilt.edu/rms , em particular um argumento para um tamanho mínimo de amostra de 96 apenas para estimar a interceptação. Mas o requisito de tamanho da amostra é mais matizado, e um artigo ainda mais recente trata disso de maneira mais abrangente.
fonte
Geralmente, há poucos casos errados. a complexidade do modelo (número de parâmetros) significa que os modelos são instáveis . Portanto, se você quiser saber se a amostra de tamanho / complexidade do modelo está correta, verifique se você obtém um modelo razoavelmente estável.
Existem (pelo menos) dois tipos diferentes de instabilidade:
Os parâmetros do modelo variam muito, com apenas pequenas alterações nos dados de treinamento.
As previsões (para o mesmo caso) de modelos treinados com pequenas alterações nos dados de treinamento variam muito.
Você pode medir 1. observando quanto os coeficientes do modelo variam se os dados de treinamento estiverem levemente perturbados. Um monte de modelos adequados pode ser calculado, por exemplo, durante os procedimentos de auto-inicialização ou validação cruzada (iterada).
Para alguns tipos de modelos ou problemas, parâmetros variados não implicam previsões variadas. Você pode verificar diretamente a instabilidade 2. observando a variação das previsões para o mesmo caso (independentemente de elas estarem corretas ou não) calculadas durante a validação cruzada sem inicialização ou iterada.
fonte
Não há regras estritas, mas você pode incluir todas as variáveis independentes, desde que as variáveis nominais não possuam muitas categorias. Você precisa de um "beta" para todos, exceto um da classe para cada variável nominal. Portanto, se uma variável nominal for "área de trabalho" e você tiver 30 áreas, precisará de 29 betas.
Uma maneira de superar isso é regularizar os betas - ou penalizar por grandes coeficientes. Isso ajuda a garantir que o seu modelo não ajuste demais os dados. A regularização L2 e L1 são escolhas populares.
Outra questão a considerar é a representatividade da sua amostra. Qual população você deseja inferir? você tem todos os diferentes tipos de pessoas na amostra que existem na população? será difícil fazer inferência precisa se a sua amostra tiver "buracos" (por exemplo, nenhuma mulher entre 35 e 50 anos na amostra ou nenhum trabalhador de alta renda, etc.)
fonte
Aqui está a resposta real do site MedCalc user41466 escreveu sobre
http://www.medcalc.org/manual/logistic_regression.php
Considerações sobre o tamanho da amostra
O cálculo do tamanho da amostra para regressão logística é um problema complexo, mas baseado no trabalho de Peduzzi et al. (1996), pode ser sugerida a seguinte diretriz para um número mínimo de casos a incluir em seu estudo. Seja p a menor das proporções de casos negativos ou positivos na população e k o número de covariáveis (o número de variáveis independentes), o número mínimo de casos a incluir é: N = 10 k / p Por exemplo: você possui 3 covariáveis para incluir no modelo e a proporção de casos positivos na população é de 0,20 (20%). O número mínimo de casos necessários é N = 10 x 3 / 0,20 = 150 Se o número resultante for menor que 100, você deve aumentá-lo para 100, conforme sugerido por Long (1997).
Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Um estudo de simulação do número de eventos por variável na análise de regressão logística. Journal of Clinical Epidemiology 49: 1373-1379.
fonte
Os resultados de qualquer modelo logístico com o número de observações por variável independente variando de pelo menos cinco a nove são confiáveis, especialmente se os resultados forem estatisticamente significativos (Vittinghoff & McCulloch, 2007).
Vittinghoff, E., & McCulloch, CE 2007. Relaxando a regra de dez eventos por variável em logística e regressão de Cox. American Journal of Epidemiology, 165 (6): 710–718.
fonte