Eu tenho um conjunto de dados com cerca de 30 variáveis independentes e gostaria de construir um modelo linear generalizado (GLM) para explorar o relacionamento entre elas e a variável dependente.
Estou ciente de que o método que me foi ensinado para essa situação, a regressão gradual, agora é considerado um pecado estatístico .
Quais métodos modernos de seleção de modelos devem ser usados nessa situação?
Respostas:
Existem várias alternativas para a regressão gradual . Os mais usados que eu vi são:
O PLS Regression e o LASSO são implementados em pacotes R como
PLS : http://cran.r-project.org/web/packages/pls/ e
LARS : http://cran.r-project.org/web/packages/lars/index.html
Se você deseja apenas explorar o relacionamento entre sua variável dependente e as variáveis independentes (por exemplo, você não precisa de testes de significância estatística), eu também recomendaria métodos de Aprendizado de Máquina como Florestas Aleatórias ou Árvores de Classificação / Regressão . As florestas aleatórias também podem aproximar relacionamentos não lineares complexos entre suas variáveis dependentes e independentes, o que pode não ter sido revelado por técnicas lineares (como Regressão linear ).
Um bom ponto de partida para o Machine Learning pode ser a exibição da tarefa Machine Learning no CRAN:
Visualização da tarefa de aprendizado de máquina : http://cran.r-project.org/web/views/MachineLearning.html
fonte
Outra opção que você pode considerar para seleção e regularização de variáveis é a rede elástica . É implementado em R através do pacote glmnet .
fonte
A média do modelo é um caminho a percorrer (uma abordagem teórica da informação). O pacote R glmulti pode executar modelos lineares para cada combinação de variáveis preditivas e executar a média do modelo para esses resultados.
Consulte http://sites.google.com/site/mcgillbgsa/workshops/glmulti
Não se esqueça de investigar a colinearidade entre variáveis preditivas primeiro. Os fatores de inflação de variação (disponíveis no pacote R "car") são úteis aqui.
fonte
MuMIn
,AICcmodavg
packages, emboraglmulti
seja mais inteligente em relação a grandes conjuntos de modelos.@johannes deu uma excelente resposta. Se você é um usuário SAS, o LASSO está disponível através do PROC GLMSELECT e mínimos quadrados parciais através do PROC PLS.
David Cassell e eu fizemos uma apresentação sobre o LASSO (e a regressão menos angular) em alguns grupos de usuários do SAS. Está disponível aqui
fonte
Discussão interessante. Rotular a regressão gradual como pecado estatístico é um pouco de uma afirmação religiosa - desde que se saiba o que eles estão fazendo e que os objetivos do exercício sejam claros, é definitivamente uma boa abordagem com seu próprio conjunto de suposições e, certamente, tendencioso e não garante a otimização, etc. No entanto, o mesmo pode ser dito de muitas outras coisas que fazemos. Não vi o CCA mencionado, que aborda o problema mais fundamental da estrutura de correlação no espaço covariável, garante a otimização, já existe há bastante tempo e apresenta uma curva de aprendizado. É implementado em uma variedade de plataformas, incluindo R.
fonte