Tamanho da amostra para regressão logística?

26

Quero criar um modelo logístico a partir dos dados da minha pesquisa. É uma pequena pesquisa de quatro colônias residenciais nas quais apenas 154 entrevistados foram entrevistados. Minha variável dependente é "transição satisfatória para o trabalho". Eu descobri que, dos 154 entrevistados, 73 disseram ter feito uma transição satisfatória para o trabalho, enquanto o restante não. Portanto, a variável dependente é de natureza binária e eu decidi usar a regressão logística. Eu tenho sete variáveis ​​independentes (três contínuas e quatro nominais). Uma diretriz sugere que deve haver 10 casos para cada variável preditora / independente (Agresti, 2007). Com base nesta diretriz, sinto que não há problema em executar a regressão logística.

Estou certo? Caso contrário, informe-me como decidir o número de variáveis ​​independentes?

Braj-Stat
fonte
3
Eu realmente nunca entendi a regra geral que diz "10 casos para cada preditor" (e infelizmente não tenho acesso ao livro escrito por Agresti). O que quero dizer é: se eu tenho 100 indivíduos, dos quais 10 são casos (os 1) e 90 não-casos (os 0), a regra diz "inclua apenas 1 preditor". Mas e se eu modelar o 0's' em vez do 1's' e depois usar o recíproco dos índices de chances estimados? Eu poderia incluir 9 preditores? Isso não faz sentido para mim.
Boscovich
Cara Andrea, eu disse a mesma coisa que você quer dizer. Dos 154 entrevistados, existem 73 casos (o 1 e o resto 0). Você poderia lançar alguma luz sobre a minha pergunta.
precisa saber é o seguinte
4
Em um comentário, li que é preciso observar o mínimo do número de eventos e não-eventos. Portanto, no exemplo de 10/100, você acaba com um preditor, independentemente de como o codifica.
PSJ
@psj parece razoável. Você tem alguma referência?
Boscovich
11
Há uma discussão relacionada aqui: número mínimo de observações para regressão logística .
gung - Restabelece Monica

Respostas:

25

Existem várias questões aqui.

Normalmente, queremos determinar um tamanho mínimo de amostra para atingir um nível minimamente aceitável de poder estatístico . O tamanho da amostra necessário é uma função de vários fatores, principalmente a magnitude do efeito que você deseja diferenciar de 0 (ou qualquer valor nulo que esteja usando, mas 0 é o mais comum) e a probabilidade mínima de capturar esse efeito. quer ter. Trabalhando sob essa perspectiva, o tamanho da amostra é determinado por uma análise de potência.

Outra consideração é a estabilidade do seu modelo (como observa o @cbeleites). Basicamente, como a relação de parâmetros estimados para o número de dados se aproxima de 1, o modelo estará saturada, e vai necessariamente ser overfit (a menos que haja, de fato, não aleatoriedade no sistema). A regra geral da proporção de 1 a 10 vem dessa perspectiva. Observe que o poder adequado geralmente cobre essa preocupação, mas não o contrário.

A regra de 1 a 10 vem do mundo da regressão linear, no entanto, e é importante reconhecer que a regressão logística tem complexidades adicionais. Uma questão é que a regressão logística funciona melhor quando as porcentagens de 1 e 0 são aproximadamente 50% / 50% (como @andrea e @psj discutem nos comentários acima). Outra questão a se preocupar é a separação . Ou seja, você não deseja que todos os seus 1 sejam reunidos em um extremo de uma variável independente (ou alguma combinação deles) e todos os 0 no outro extremo. Embora isso pareça uma boa situação, porque facilitaria a previsão perfeita, na verdade, faz com que o processo de estimativa de parâmetros exploda. (@ Scortchi tem uma excelente discussão sobre como lidar com a separação na regressão logística aqui:Como lidar com a separação perfeita na regressão logística? ) Com mais IVs, isso se torna mais provável, mesmo que as verdadeiras magnitudes dos efeitos sejam mantidas constantes, e especialmente se suas respostas forem desequilibradas. Assim, você pode facilmente precisar de mais de 10 dados por IV.

Uma última questão com essa regra de ouro é que ela assume que seus IVs são ortogonais . Isso é razoável para experimentos projetados, mas com estudos observacionais como o seu, seus IVs quase nunca serão aproximadamente ortogonais. Existem estratégias para lidar com essa situação (por exemplo, combinar ou descartar IVs, realizar uma análise de componentes principais primeiro etc.), mas se não for abordada (o que é comum), você precisará de mais dados.

Uma pergunta razoável, então, é qual deve ser o seu N mínimo e / ou o tamanho da amostra é suficiente? Para resolver isso, sugiro que você use os métodos que @cbeleites discute; confiar na regra de 1 a 10 será insuficiente.

- Reinstate Monica
fonte
6
Você pode fornecer uma referência para a afirmação "Um problema é que a regressão logística funciona melhor quando as porcentagens de 1 e 0 são aproximadamente 50% / 50%"? Eu mesmo estive pensando sobre isso, pois tenho um conjunto de dados muito distante de 50/50 e estou pensando nas implicações. (não ressuscitar o fio)
Trevor
3
Não vejo nenhum problema ao ressuscitar um thread antigo quando apropriado, @Trevor. Eu acho que o que você está procurando é algo como esta resposta agradável, conjugada anteriormente: faz-uma-amostra-desequilibrada-importa-quando-faz-regressão logística .
fu - Restabeleça Monica
2
+1 na pergunta de Trevor. Acredito que a regressão logística continuará se beneficiando de novos dados, mesmo que esses dados sejam do mesmo caso (apesar dos retornos decrescentes). Na verdade, isso me incomodou em técnicas de aprendizado de máquina, como florestas aleatórias - que podem piorar adicionando dados de treinamento mais relevantes. Talvez haja um ponto em que a regressão logística se decomponha devido a considerações numéricas se o desequilíbrio se tornar muito grave. Estaria interessado em aprender mais sobre isso.
Ben Ogorek
+1, talvez isso esteja implícito na sua resposta. Não tenho certeza, mas estou imaginando como isso funciona para variáveis ​​categóricas com níveis diferentes. Seria sugerido ter 10 observações por nível?
baxx 17/04
11
É uma regra prática, @baxx, mas sim, para fazer mais do que apenas estimar as porcentagens, você precisaria de pelo menos 45.
gung - Reinstate Monica
16

Normalmente, uso uma regra 15: 1 (proporção de min (eventos, não eventos) para o número de parâmetros candidatos no modelo). Trabalhos mais recentes descobriram que, para uma validação mais rigorosa, é necessário 20: 1. Mais informações podem ser encontradas nos folhetos de meus cursos, linkados em http://biostat.mc.vanderbilt.edu/rms , em particular um argumento para um tamanho mínimo de amostra de 96 apenas para estimar a interceptação. Mas o requisito de tamanho da amostra é mais matizado, e um artigo ainda mais recente trata disso de maneira mais abrangente.

Frank Harrell
fonte
14

Geralmente, há poucos casos errados. a complexidade do modelo (número de parâmetros) significa que os modelos são instáveis . Portanto, se você quiser saber se a amostra de tamanho / complexidade do modelo está correta, verifique se você obtém um modelo razoavelmente estável.

Existem (pelo menos) dois tipos diferentes de instabilidade:

  1. Os parâmetros do modelo variam muito, com apenas pequenas alterações nos dados de treinamento.

  2. As previsões (para o mesmo caso) de modelos treinados com pequenas alterações nos dados de treinamento variam muito.

Você pode medir 1. observando quanto os coeficientes do modelo variam se os dados de treinamento estiverem levemente perturbados. Um monte de modelos adequados pode ser calculado, por exemplo, durante os procedimentos de auto-inicialização ou validação cruzada (iterada).

Para alguns tipos de modelos ou problemas, parâmetros variados não implicam previsões variadas. Você pode verificar diretamente a instabilidade 2. observando a variação das previsões para o mesmo caso (independentemente de elas estarem corretas ou não) calculadas durante a validação cruzada sem inicialização ou iterada.

cbeleites suporta Monica
fonte
5

Não há regras estritas, mas você pode incluir todas as variáveis ​​independentes, desde que as variáveis ​​nominais não possuam muitas categorias. Você precisa de um "beta" para todos, exceto um da classe para cada variável nominal. Portanto, se uma variável nominal for "área de trabalho" e você tiver 30 áreas, precisará de 29 betas.

Uma maneira de superar isso é regularizar os betas - ou penalizar por grandes coeficientes. Isso ajuda a garantir que o seu modelo não ajuste demais os dados. A regularização L2 e L1 são escolhas populares.

Outra questão a considerar é a representatividade da sua amostra. Qual população você deseja inferir? você tem todos os diferentes tipos de pessoas na amostra que existem na população? será difícil fazer inferência precisa se a sua amostra tiver "buracos" (por exemplo, nenhuma mulher entre 35 e 50 anos na amostra ou nenhum trabalhador de alta renda, etc.)

probabilityislogic
fonte
4

Aqui está a resposta real do site MedCalc user41466 escreveu sobre

http://www.medcalc.org/manual/logistic_regression.php

Considerações sobre o tamanho da amostra

O cálculo do tamanho da amostra para regressão logística é um problema complexo, mas baseado no trabalho de Peduzzi et al. (1996), pode ser sugerida a seguinte diretriz para um número mínimo de casos a incluir em seu estudo. Seja p a menor das proporções de casos negativos ou positivos na população e k o número de covariáveis ​​(o número de variáveis ​​independentes), o número mínimo de casos a incluir é: N = 10 k / p Por exemplo: você possui 3 covariáveis ​​para incluir no modelo e a proporção de casos positivos na população é de 0,20 (20%). O número mínimo de casos necessários é N = 10 x 3 / 0,20 = 150 Se o número resultante for menor que 100, você deve aumentá-lo para 100, conforme sugerido por Long (1997).

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Um estudo de simulação do número de eventos por variável na análise de regressão logística. Journal of Clinical Epidemiology 49: 1373-1379.

user2387584
fonte
Por isso, é o mesmo 10cases por variável independente (com piso)
seanv507
1

Os resultados de qualquer modelo logístico com o número de observações por variável independente variando de pelo menos cinco a nove são confiáveis, especialmente se os resultados forem estatisticamente significativos (Vittinghoff & McCulloch, 2007).

Vittinghoff, E., & McCulloch, CE 2007. Relaxando a regra de dez eventos por variável em logística e regressão de Cox. American Journal of Epidemiology, 165 (6): 710–718.

user143522
fonte
Observe que não é estritamente o "número de observações por variável independente" que está em questão, é o número de "eventos". Para uma regressão logística, o número de "eventos" é o número de casos na menos frequente das duas classes de resultados. Isso não será maior que 1/2 do número total de observações e, em algumas aplicações, muito menor que isso.
EdM