Eu tenho um conjunto de dados no qual a taxa de eventos é muito baixa (40.000 de ). Estou aplicando regressão logística sobre isso. Eu tive uma discussão com alguém de onde saiu que a regressão logística não daria uma boa matriz de confusão em dados tão baixos de taxa de eventos. Mas, devido ao problema de negócios e à maneira como ele foi definido, não posso aumentar o número de eventos de 40.000 para um número maior, embora concorde que posso excluir alguma população que não existe.
Por favor, diga-me sua opinião sobre isso, especificamente:
- A precisão da regressão logística depende da taxa de eventos ou há alguma taxa mínima de eventos recomendada?
- Existe alguma técnica especial para dados com baixa taxa de eventos?
- Excluir minha população sem eventos seria bom para a precisão do meu modelo?
Eu sou novo na modelagem estatística, então perdoe minha ignorância e resolva quaisquer problemas associados que eu possa pensar.
Obrigado,
Respostas:
Vou responder suas perguntas fora de ordem:
Cada observação fornecerá algumas informações adicionais sobre o parâmetro (através da função de verossimilhança). Portanto, não há sentido em excluir dados, pois você estaria perdendo informações.
Tecnicamente, sim: uma observação rara é muito mais informativa (ou seja, a função de probabilidade será mais acentuada). Se sua taxa de eventos for 50:50, você obterá faixas de confiança muito mais restritas (ou intervalos credíveis se estiver sendo bayesiano) para a mesma quantidade de dados . No entanto, você não pode escolher sua taxa de eventos (a menos que esteja fazendo um estudo de controle de caso), então você terá que se contentar com o que tem.
O maior problema que pode surgir é a separação perfeita : isso acontece quando alguma combinação de variáveis fornece todos os não-eventos (ou todos os eventos): nesse caso, as estimativas de parâmetros de probabilidade máxima (e seus erros padrão) se aproximam do infinito (embora geralmente o algoritmo irá parar antes). Há duas soluções possíveis:
a) removendo preditores do modelo: embora isso faça com que seu algoritmo converja, você removerá a variável com o poder mais explicativo; portanto, isso só faz sentido se o seu modelo tiver se adaptado demais (como ajustar muitas interações complicadas) .
b) use algum tipo de penalização, como uma distribuição anterior, que reduzirá as estimativas para valores mais razoáveis.
fonte
glm
função de R. Na pior das hipóteses, isso é como jogar parte de cada ponto de dados com ponderação reduzida, suponho, mas não é a mesma coisa. 2) Como eu disse, existem compensações associadas a esta decisão. Provavelmente faz mais sentido em contextos em que a população que está sendo amostrada não está bem definida e a verdadeira taxa de eventos não é significativa para começar. Eu certamente não recomendaria isso de maneira geral.Existe uma alternativa melhor para excluir eventos não temporários para dados temporais ou espaciais: você pode agregar seus dados no tempo / espaço e modelar as contagens como Poisson. Por exemplo, se o seu evento for "erupção vulcânica acontece no dia X", em poucos dias haverá uma erupção vulcânica. No entanto, se você agrupar os dias em semanas ou meses, por exemplo, "número de erupções vulcânicas no mês X", você reduzirá o número de eventos e mais eventos terão valores diferentes de zero.
fonte