Regressão logística com variáveis ​​preditivas esparsas

8

Atualmente, estou modelando alguns dados usando uma regressão logística binária. A variável dependente possui um bom número de casos positivos e negativos - não é escassa. Eu também tenho um grande conjunto de treinamento (> 100.000) e o número de efeitos principais nos quais estou interessado é de cerca de 15, por isso não estou preocupado com um problema de p> n.

O que me preocupa é que muitas das minhas variáveis ​​preditoras, se contínuas, são zero na maioria das vezes, e se nominais, são nulas na maioria das vezes. Quando essas variáveis ​​preditivas esparsas assumem um valor> 0 (ou não nulo), sei que, devido à familiaridade com os dados, elas devem ser importantes na previsão de meus casos positivos. Eu tenho tentado procurar informações sobre como a escassez desses preditores pode estar afetando meu modelo.

Em particular, eu não gostaria que o efeito de uma variável esparsa, mas importante, não fosse incluído no meu modelo se houver outra variável preditora que não seja esparsa e esteja correlacionada, mas que na verdade não faça um bom trabalho ao prever os casos positivos .

Para ilustrar um exemplo, se eu estava tentando modelar se alguém acabou sendo aceito em uma universidade específica da ivy league e meus três preditores foram pontuação no SAT, GPA e "doação> 1 milhão de dólares" como binário, tenho motivos para acreditar que "doações> 1 milhão de dólares", quando verdade, será muito preditivo de aceitação - mais do que um alto GPA ou SAT -, mas também é muito escasso. Como, se é que isso vai afetar meu modelo logístico, e preciso fazer ajustes para isso? Além disso, outro tipo de modelo (por exemplo, árvore de decisão, floresta aleatória etc.) lidaria melhor com isso?

Christianne
fonte

Respostas:

2

1) A escassez de dados pode ser manipulada pela regularização L1.

2) Você também pode tentar sub-amostragem e super-amostragem de dados. (Não esqueça de calibrar o resultado com base na taxa de amostragem usada anteriormente)

3) Seu modelo também cuidará da significância de diferentes variáveis.

Arpit Sisodia
fonte
0

Se seus dados vierem com um pouco de incerteza, você poderá criar um nível de confiança em torno de uma variável preditora esparsa. No seu exemplo, uma variável categórica em que:

0 = certamente não doou> US $ 1 milhão em dólares

1 = possivelmente doado> US $ 1 milhão em dólares

2 = certamente doou> US $ 1 milhão em dólares

Isso funcionou bem para mim no passado

BeeGee
fonte