Atualmente, estou modelando alguns dados usando uma regressão logística binária. A variável dependente possui um bom número de casos positivos e negativos - não é escassa. Eu também tenho um grande conjunto de treinamento (> 100.000) e o número de efeitos principais nos quais estou interessado é de cerca de 15, por isso não estou preocupado com um problema de p> n.
O que me preocupa é que muitas das minhas variáveis preditoras, se contínuas, são zero na maioria das vezes, e se nominais, são nulas na maioria das vezes. Quando essas variáveis preditivas esparsas assumem um valor> 0 (ou não nulo), sei que, devido à familiaridade com os dados, elas devem ser importantes na previsão de meus casos positivos. Eu tenho tentado procurar informações sobre como a escassez desses preditores pode estar afetando meu modelo.
Em particular, eu não gostaria que o efeito de uma variável esparsa, mas importante, não fosse incluído no meu modelo se houver outra variável preditora que não seja esparsa e esteja correlacionada, mas que na verdade não faça um bom trabalho ao prever os casos positivos .
Para ilustrar um exemplo, se eu estava tentando modelar se alguém acabou sendo aceito em uma universidade específica da ivy league e meus três preditores foram pontuação no SAT, GPA e "doação> 1 milhão de dólares" como binário, tenho motivos para acreditar que "doações> 1 milhão de dólares", quando verdade, será muito preditivo de aceitação - mais do que um alto GPA ou SAT -, mas também é muito escasso. Como, se é que isso vai afetar meu modelo logístico, e preciso fazer ajustes para isso? Além disso, outro tipo de modelo (por exemplo, árvore de decisão, floresta aleatória etc.) lidaria melhor com isso?
fonte