Estratégia para lidar com regressão logística de eventos raros

27

Eu gostaria de estudar eventos raros em uma população finita. Como não tenho certeza sobre qual estratégia é mais adequada, eu gostaria de receber dicas e referências relacionadas a esse assunto, embora eu saiba que isso foi amplamente abordado. Eu realmente não sei por onde começar.

Meu problema é de ciências políticas e tenho uma população finita composta por 515.843 registros. Eles estão associados a uma variável dependente binária com 513.334 "0" se 2.505 "1" s. Eu posso cunhar meus "1" como eventos raros, pois eles representam apenas 0,49% da população.

Eu tenho um conjunto de cerca de 10 variáveis ​​independentes com as quais gostaria de construir um modelo para explicar a presença de "1" s. Como muitos de nós, li o artigo de King & Zeng, de 2001, sobre a correção de eventos raros. Sua abordagem foi usar um design de controle de caso para reduzir o número de "0" s e aplicar a correção à interceptação.

No entanto, este post diz que o argumento de King & Zeng não era necessário se eu já tivesse coletado meus dados sobre toda a população, o que é o meu caso. Portanto, eu tenho que usar o modelo logit clássico. Infelizmente para mim, embora eu obtenha bons coeficientes significativos, meu modelo é completamente inútil em termos de previsão (falha em prever 99,48% dos meus "1" s).

Depois de ler o artigo de King & Zeng, eu quis experimentar um projeto de controle de caso e selecionei apenas 10% dos "0" s com todos os "1" s. Com quase os mesmos coeficientes, o modelo foi capaz de prever quase um terço dos "1" s quando aplicado a toda a população. Claro, existem muitos falso-positivos.

Tenho, portanto, três perguntas que gostaria de fazer:

1) Se a abordagem de King & Zeng é prejudicial quando você tem pleno conhecimento da população, por que eles usam uma situação em que conhecem a população em seu artigo para provar seu argumento?

2) Se eu tenho coeficientes bons e siginificantes em uma regressão logit, mas um poder preditivo muito baixo, isso significa que a variação explicada por essas variáveis ​​não tem sentido?

3) Qual é a melhor abordagem para lidar com eventos raros? Li sobre o modelo de relogito de King, a abordagem de Firth, o logit exato etc. Devo confessar que estou perdido entre todas essas soluções.

Damien
fonte
O número parece familiar ... por acaso um conjunto de dados sobre conflitos étnicos? Se yo, é uma série de tempo - eu usei um modelo de sobrevivência de grande sucesso em um estudo de conflito étnico ...
Christian Sauer
Perto o suficiente. É um conjunto de dados sobre a localização de eventos de conflito na África. No entanto, estudo a localização desses eventos sem levar em consideração o tempo.
Damien
11
Ah, muitos dos meus casos vieram da África, pois os conflitos étnicos são desenfreados lá. Você estuda geograficamente? Seria um grande problema explicar o tempo? Achei realmente útil, especialmente devido ao fato de que certas variáveis ​​estão mudando com o tempo (sistema político, guerra fria etc.) #
Christian Sauer
Estou usando o conjunto de dados GED do UCDP, que abrange o período 1989-2010. Estou interessado nos fatores geográficos que podem desempenhar um papel na localização de eventos de conflito. As variações de tempo certamente têm muito a dizer, mas as perguntas respondidas são diferentes. Além disso, muitos dos meus variáveis independentes são ou não disponível para diferentes períodos (cobertura do solo) ou não muda em nada (topografia)
Damien
11
"(falha em prever 99,48% dos meus" 1 "s)." parece que você está usando alguma regra de corte arbitrária [por exemplo, 0,5!] para classificar, enquanto toda a idéia de regressão logística é que a saída é uma probabilidade - cabe a você decidir o limite para equilibrar os falsos positivos / negativos
seanv507

Respostas:

17

(1) Se você tem "conhecimento completo de uma população", por que precisa de um modelo para fazer previsões? Eu suspeito que você esteja implicitamente considerando-os como uma amostra de uma superpopulação hipotética - veja aqui e aqui . Então você deve jogar fora as observações da sua amostra? Não. King & Zeng não defendem isso:

[...] em áreas como relações internacionais, o número de 1s observáveis ​​(como guerras) é estritamente limitado; portanto, na maioria das aplicações, é melhor coletar todos os 1s disponíveis ou uma grande amostra deles. A única decisão real, então, é quantos zeros a serem coletados também. Se a coleta de zeros for gratuita, devemos coletar o máximo possível, pois mais dados são sempre melhores.

Y

(2) O principal problema aqui é o uso de uma regra de pontuação inadequada para avaliar o desempenho preditivo do seu modelo. Suponha que seu modelo seja verdadeiro , de modo que, para qualquer indivíduo, você saiba a probabilidade de um evento raro - digamos, ser mordido por uma cobra no próximo mês. O que mais você aprende estipulando um limite arbitrário de probabilidade e prevendo que os que estão acima dele serão mordidos e os que estão abaixo dele não serão? Se você fizer o corte de 50%, provavelmente irá prever que ninguém será mordido. Se você o fizer baixo o suficiente, poderá prever que todos serão mordidos. E daí? A aplicação sensata de um modelo requer discriminação - a quem deve ser dado o único frasco de anti-veneno? - ou calibração - para quem vale a pena comprar botas, dado o seu custo em relação ao de uma picada de cobra ?.

Scortchi - Restabelecer Monica
fonte
Obrigado pela resposta. Em relação a (1), seria mais apropriado falar sobre uma amostra das observações que sabemos até agora para explicar a possibilidade de eventos futuros? Em relação a (2), passei um momento tentando descobrir o que é uma regra de pontuação. Se eu entendi corretamente o artigo da Wikipedia, devo variar a função de pontuação entre diferentes valores de probabilidade para os quais o evento deve ocorrer e escolher como valor de corte a probabilidade que obteve a pontuação mais alta. Se eu escolher a regra de pontuação logarítmica, como devo implementar o valor esperado?
Damien
11
R2
@ Scortchi; então, você defenderia o uso de regressão logística, ou não, para o número de observações / casos como nas operações (digamos com ~ 10 preditores contínuos), se for necessária uma probabilidade de um caso, o que parece estar subestimado? graças
user2957945
3

Em um nível, pergunto-me quanto da imprecisão do seu modelo é simplesmente que seu processo é difícil de prever e suas variáveis ​​não são suficientes para isso. Existem outras variáveis ​​que podem explicar mais?

Por outro lado, se você puder converter sua variável dependente como um problema de contagem / ordinal (como vítimas de conflito ou duração do conflito), poderá tentar modelos de regressão de contagem ou obstáculos. Eles podem ter o mesmo problema de baixa definição entre 0 e 1, mas alguns conflitos com os quais suas variáveis ​​estão correlacionadas podem se afastar de zero.

gregmacfarlane
fonte
4
(+1) Boas sugestões. No entanto, gostaria de dizer que a "imprecisão" do modelo é apenas uma falha na previsão de muitas probabilidades acima de 50%. Se os "1" s normalmente têm probabilidades previstas de 10% a 40%, em comparação com pouco menos de 0,5% para os "0" s - isso seria considerado um forte desempenho preditivo em muitas aplicações.
Scortchi - Restabelece Monica
2

Além de reduzir a amostragem da população majoritária, você também pode amostrar demais os eventos raros, mas lembre-se de que a amostragem excessiva da classe minoritária pode levar a um ajuste excessivo, portanto verifique as coisas com cuidado.

Este artigo pode fornecer mais informações: Yap, Bee Wah, et al. "Uma aplicação de sobreamostragem, subamostragem, ensacamento e reforço no manuseio de conjuntos de dados desequilibrados". pdf

Além disso, gostaria de vincular esta pergunta, pois ela também discute o mesmo problema.

Alexey Grigorev
fonte
0

Sua pergunta se resume a como posso persuadir a regressão logit para encontrar uma solução melhor. Mas você tem certeza de que existe uma solução melhor? Com apenas dez parâmetros, você conseguiu encontrar uma solução melhor?

Eu tentaria um modelo mais complicado, por exemplo, adicionando termos de produto na entrada ou adicionando uma camada de saída máxima no lado do destino (para que você tenha essencialmente vários regressores logísticos para vários subconjuntos do alvo 1s descobertos de forma adaptável).

Neil G
fonte
Obrigado pela sua resposta. Definitivamente tentarei combinar minhas variáveis ​​de maneiras diferentes. Mas antes, eu quero saber se o fraco desempenho de meu modelo vêm de questões técnicas ou de algum outro lugar
Damien
-1

Ótima pergunta.

Na minha opinião, a questão é se você está tentando fazer inferência (você está interessado no que seus coeficientes estão lhe dizendo?) Ou previsão. Nesse último caso, você pode emprestar modelos do Machine Learning (BART, randomForest, árvores aumentadas etc.) que quase certamente farão um trabalho melhor na previsão do que no logit. Se você estiver fazendo inferência e tiver tantos pontos de dados, tente incluir termos de interação sensíveis, termos polinomiais etc. Como alternativa, você pode fazer inferência do BART, como neste artigo:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

Eu tenho trabalhado recentemente em eventos raros e não tinha ideia de quanto casos raros podem afetar a análise. A amostragem para baixo dos casos 0 é uma obrigação. Uma estratégia para encontrar a proporção ideal de amostra inferior seria

  1. Pegue todos os seus 1s, digamos que você tenha n1 deles.
  2. Defina algum valor z = múltiplo do n1 que você irá desenhar; talvez comece às 5 e reduza para 1.
  3. desenhar z * n1 0 observações
  4. Estime seu modelo em uma amostra de seus dados de subconjunto, certificando-se de validar cruzadamente em todo o conjunto de dados
  5. Salve as medidas de ajuste relevantes nas quais você está interessado: coeficientes de interesse, AUC de uma curva ROC, valores relevantes em uma matriz de confusão etc.
  6. Repita as etapas 2: 5 para zs sucessivamente menores. Você provavelmente descobrirá que, ao fazer uma amostragem reduzida, a taxa de falso-negativo para falso-positivo (em seu conjunto de testes) diminuirá. Ou seja, você começará a prever mais 1s, espero que sejam realmente 1s, mas também muitos que sejam realmente 0s. Se houver um ponto de sela nessa classificação incorreta, seria uma boa taxa de amostragem.

Espero que isto ajude. JS

Jim
fonte
11
(-1) Não é necessário fazer uma amostragem para regressão logística. Veja aqui ; selecionar a resposta altera apenas a interceptação esperada; portanto, a amostragem reduzida apenas reduz a precisão dos índices de chances estimados. A regressão logística fornece probabilidades previstas, que você pode usar para classificar usando pontos de corte calculados para levar em conta os custos de diferentes tipos de má classificação, ou para classificar indivíduos ou se interessar por eles mesmos.
Scortchi - Restabelece Monica
Você notará que eu não mencionei o uso da regressão logística e, em vez disso, sugeri que existem métodos (como o BART com amostragem reduzida) que provavelmente são mais apropriados para casos raros.
Jim Jim
A pergunta é sobre regressão logística, e se você deve fazer uma amostragem reduzida ao fazê-lo, e você parece estar discutindo a regressão logística quando escreve sobre "incluindo termos de interação sensíveis, termos polinomiais"; portanto, não está claro que seus conselhos sobre amostragem reduzida devem ser usados ​​apenas com métodos alternativos: talvez você pense em editar sua resposta para esclarecer.
Scortchi - Restabelece Monica