Em um conjunto de dados de duas populações não sobrepostas (pacientes e saudáveis, total ), gostaria de encontrar (de variáveis independentes) preditores significativos para uma variável dependente contínua. Correlação entre preditores está presente. Estou interessado em descobrir se algum dos preditores está relacionado à variável dependente "na realidade" (em vez de prever a variável dependente da maneira mais exata possível). Como fiquei impressionado com as inúmeras abordagens possíveis, gostaria de perguntar qual é a abordagem mais recomendada.300
Pelo meu entendimento, a inclusão ou exclusão gradual de preditores não é recomendada
Por exemplo, execute uma regressão linear separadamente para cada preditor e corrija os valores de p para comparação múltipla usando FDR (provavelmente muito conservador?)
Regressão de componente principal: difícil de interpretar, pois não poderei falar sobre o poder preditivo de preditores individuais, mas apenas sobre os componentes.
alguma outra sugestão?
Respostas:
Eu recomendaria tentar um glm com a regularização do laço . Isso adiciona uma penalidade ao modelo para o número de variáveis e, à medida que você aumenta a penalidade, o número de variáveis no modelo diminui.
Você deve usar a validação cruzada para selecionar o valor do parâmetro de penalidade. Se você tem R, sugiro usar o pacote glmnet . Use
alpha=1
para regressão do laço ealpha=0
para regressão de crista. Definir um valor entre 0 e 1 usará uma combinação de penalidades de laço e cordilheira, também conhecidas como rede elástica.fonte
Para expandir a resposta de Zach (+1), se você usar o método LASSO em regressão linear, está tentando minimizar a soma de uma função quadrática e uma função de valor absoluto, ou seja:
O mínimo está na curva de interseção, plotada aqui com as curvas de contorno da curva quadrática e quadrada:
Você pode ver que o mínimo está em um dos eixos, portanto, essa variável foi eliminada da regressão.
fonte
Qual é a sua opinião anterior sobre quantos preditores provavelmente serão importantes? É provável que a maioria deles tenha um efeito exatamente zero ou que tudo afete o resultado, algumas variáveis apenas menos que outras?
E como o status de saúde está relacionado à tarefa preditiva?
Se você acredita que apenas algumas variáveis são importantes, tente o spike and slab anterior (no pacote spikeSlabGAM do R, por exemplo) ou L1. Se você acha que todos os preditores afetam o resultado, pode estar sem sorte.
E, em geral, todas as advertências relacionadas à inferência causal a partir de dados observacionais se aplicam.
fonte
Faça o que fizer, vale a pena obter intervalos de confiança de autoinicialização nas fileiras de importância dos preditores para mostrar que você realmente pode fazer isso com seu conjunto de dados. Eu duvido que qualquer um dos métodos possa encontrar com segurança os preditores "verdadeiros".
fonte
fonte