Eu gostaria de estudar eventos raros em uma população finita. Como não tenho certeza sobre qual estratégia é mais adequada, eu gostaria de receber dicas e referências relacionadas a esse assunto, embora eu saiba que isso foi amplamente abordado. Eu realmente não sei por onde começar.
Meu problema é de ciências políticas e tenho uma população finita composta por 515.843 registros. Eles estão associados a uma variável dependente binária com 513.334 "0" se 2.505 "1" s. Eu posso cunhar meus "1" como eventos raros, pois eles representam apenas 0,49% da população.
Eu tenho um conjunto de cerca de 10 variáveis independentes com as quais gostaria de construir um modelo para explicar a presença de "1" s. Como muitos de nós, li o artigo de King & Zeng, de 2001, sobre a correção de eventos raros. Sua abordagem foi usar um design de controle de caso para reduzir o número de "0" s e aplicar a correção à interceptação.
No entanto, este post diz que o argumento de King & Zeng não era necessário se eu já tivesse coletado meus dados sobre toda a população, o que é o meu caso. Portanto, eu tenho que usar o modelo logit clássico. Infelizmente para mim, embora eu obtenha bons coeficientes significativos, meu modelo é completamente inútil em termos de previsão (falha em prever 99,48% dos meus "1" s).
Depois de ler o artigo de King & Zeng, eu quis experimentar um projeto de controle de caso e selecionei apenas 10% dos "0" s com todos os "1" s. Com quase os mesmos coeficientes, o modelo foi capaz de prever quase um terço dos "1" s quando aplicado a toda a população. Claro, existem muitos falso-positivos.
Tenho, portanto, três perguntas que gostaria de fazer:
1) Se a abordagem de King & Zeng é prejudicial quando você tem pleno conhecimento da população, por que eles usam uma situação em que conhecem a população em seu artigo para provar seu argumento?
2) Se eu tenho coeficientes bons e siginificantes em uma regressão logit, mas um poder preditivo muito baixo, isso significa que a variação explicada por essas variáveis não tem sentido?
3) Qual é a melhor abordagem para lidar com eventos raros? Li sobre o modelo de relogito de King, a abordagem de Firth, o logit exato etc. Devo confessar que estou perdido entre todas essas soluções.
fonte
Respostas:
(1) Se você tem "conhecimento completo de uma população", por que precisa de um modelo para fazer previsões? Eu suspeito que você esteja implicitamente considerando-os como uma amostra de uma superpopulação hipotética - veja aqui e aqui . Então você deve jogar fora as observações da sua amostra? Não. King & Zeng não defendem isso:
(2) O principal problema aqui é o uso de uma regra de pontuação inadequada para avaliar o desempenho preditivo do seu modelo. Suponha que seu modelo seja verdadeiro , de modo que, para qualquer indivíduo, você saiba a probabilidade de um evento raro - digamos, ser mordido por uma cobra no próximo mês. O que mais você aprende estipulando um limite arbitrário de probabilidade e prevendo que os que estão acima dele serão mordidos e os que estão abaixo dele não serão? Se você fizer o corte de 50%, provavelmente irá prever que ninguém será mordido. Se você o fizer baixo o suficiente, poderá prever que todos serão mordidos. E daí? A aplicação sensata de um modelo requer discriminação - a quem deve ser dado o único frasco de anti-veneno? - ou calibração - para quem vale a pena comprar botas, dado o seu custo em relação ao de uma picada de cobra ?.
fonte
Em um nível, pergunto-me quanto da imprecisão do seu modelo é simplesmente que seu processo é difícil de prever e suas variáveis não são suficientes para isso. Existem outras variáveis que podem explicar mais?
Por outro lado, se você puder converter sua variável dependente como um problema de contagem / ordinal (como vítimas de conflito ou duração do conflito), poderá tentar modelos de regressão de contagem ou obstáculos. Eles podem ter o mesmo problema de baixa definição entre 0 e 1, mas alguns conflitos com os quais suas variáveis estão correlacionadas podem se afastar de zero.
fonte
Além de reduzir a amostragem da população majoritária, você também pode amostrar demais os eventos raros, mas lembre-se de que a amostragem excessiva da classe minoritária pode levar a um ajuste excessivo, portanto verifique as coisas com cuidado.
Este artigo pode fornecer mais informações: Yap, Bee Wah, et al. "Uma aplicação de sobreamostragem, subamostragem, ensacamento e reforço no manuseio de conjuntos de dados desequilibrados". pdf
Além disso, gostaria de vincular esta pergunta, pois ela também discute o mesmo problema.
fonte
Sua pergunta se resume a como posso persuadir a regressão logit para encontrar uma solução melhor. Mas você tem certeza de que existe uma solução melhor? Com apenas dez parâmetros, você conseguiu encontrar uma solução melhor?
Eu tentaria um modelo mais complicado, por exemplo, adicionando termos de produto na entrada ou adicionando uma camada de saída máxima no lado do destino (para que você tenha essencialmente vários regressores logísticos para vários subconjuntos do alvo 1s descobertos de forma adaptável).
fonte
Ótima pergunta.
Na minha opinião, a questão é se você está tentando fazer inferência (você está interessado no que seus coeficientes estão lhe dizendo?) Ou previsão. Nesse último caso, você pode emprestar modelos do Machine Learning (BART, randomForest, árvores aumentadas etc.) que quase certamente farão um trabalho melhor na previsão do que no logit. Se você estiver fazendo inferência e tiver tantos pontos de dados, tente incluir termos de interação sensíveis, termos polinomiais etc. Como alternativa, você pode fazer inferência do BART, como neste artigo:
http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf
Eu tenho trabalhado recentemente em eventos raros e não tinha ideia de quanto casos raros podem afetar a análise. A amostragem para baixo dos casos 0 é uma obrigação. Uma estratégia para encontrar a proporção ideal de amostra inferior seria
Espero que isto ajude. JS
fonte