Quais são as alternativas modernas e facilmente usadas para a regressão gradual?

76

Eu tenho um conjunto de dados com cerca de 30 variáveis ​​independentes e gostaria de construir um modelo linear generalizado (GLM) para explorar o relacionamento entre elas e a variável dependente.

Estou ciente de que o método que me foi ensinado para essa situação, a regressão gradual, agora é considerado um pecado estatístico .

Quais métodos modernos de seleção de modelos devem ser usados ​​nessa situação?

fmark
fonte
4
Outras pessoas mencionam procedimentos estatísticos que podem ser úteis, mas eu perguntaria primeiro se você tem alguma teoria sobre a força e a forma do relacionamento entre variáveis. Qual é o tamanho da sua amostra? Você tem motivos para evitar modelos complexos?
Michael Bishop
2
Alguém considerou a média do modelo como uma alternativa para combater o problema de preconceito no pré-teste e questões de falta de especificação? Grosso modo, todas as variáveis ​​são preditores em potencial e você pode estimar a probabilidade de serem úteis. Assim, o estimador combinado não apenas melhora o desempenho da previsão, mas também produz boas estimativas de propriedades para os parâmetros das variáveis ​​no "escopo".
Dmitrij Celov
1
Encolhimento. Ninguém usa gradual mais, espero
Aksakal

Respostas:

56

Existem várias alternativas para a regressão gradual . Os mais usados ​​que eu vi são:

  • Opinião de especialista para decidir quais variáveis ​​incluir no modelo.
  • Regressão parcial de mínimos quadrados . Você basicamente obtém variáveis ​​latentes e faz uma regressão com elas. Você também pode fazer o PCA sozinho e, em seguida, usar as principais variáveis.
  • Operador de mínimo encolhimento e seleção absoluto (LASSO).

O PLS Regression e o LASSO são implementados em pacotes R como

PLS : http://cran.r-project.org/web/packages/pls/ e

LARS : http://cran.r-project.org/web/packages/lars/index.html

Se você deseja apenas explorar o relacionamento entre sua variável dependente e as variáveis ​​independentes (por exemplo, você não precisa de testes de significância estatística), eu também recomendaria métodos de Aprendizado de Máquina como Florestas Aleatórias ou Árvores de Classificação / Regressão . As florestas aleatórias também podem aproximar relacionamentos não lineares complexos entre suas variáveis ​​dependentes e independentes, o que pode não ter sido revelado por técnicas lineares (como Regressão linear ).

Um bom ponto de partida para o Machine Learning pode ser a exibição da tarefa Machine Learning no CRAN:

Visualização da tarefa de aprendizado de máquina : http://cran.r-project.org/web/views/MachineLearning.html

Johannes
fonte
10
O pacote glmnet é uma implementação muito rápida do lasso bem
David J. Harris
2
Eu alertaria que, dentro da comunidade de variáveis ​​latentes, os PLSers formam um grupo muito isolado e nunca foram capazes de penetrar na literatura séria (com o que quero dizer, por exemplo, a teoria assintótica dos estimadores de mínimos quadrados nos trabalhos de Michael Browne, Peter Bentler, Albert Satorra e Alex Shapiro e modelagem de variáveis ​​instrumentais de Ken Bollen, para citar os poucos mais importantes). Estranhamente, porém, o PLS parece ser um método aceitável nos círculos estatísticos, que geralmente mantêm um padrão de rigor mais alto do que a comunidade latente de modelagem de variáveis.
StasK
6
Os Elementos de Aprendizagem Estatística têm uma comparação de diferentes métodos de seleção e encolhimento de variáveis: (OLS,) melhor subconjunto, cume, laço, PLS, PCR.
Cbeleites
19

Outra opção que você pode considerar para seleção e regularização de variáveis ​​é a rede elástica . É implementado em R através do pacote glmnet .

Zach
fonte
16

A média do modelo é um caminho a percorrer (uma abordagem teórica da informação). O pacote R glmulti pode executar modelos lineares para cada combinação de variáveis ​​preditivas e executar a média do modelo para esses resultados.

Consulte http://sites.google.com/site/mcgillbgsa/workshops/glmulti

Não se esqueça de investigar a colinearidade entre variáveis ​​preditivas primeiro. Os fatores de inflação de variação (disponíveis no pacote R "car") são úteis aqui.

OliP
fonte
Obrigado. Ele realmente se encaixa em todos os modelos possíveis? Mesmo sem interações, são cerca de um bilhão de modelos neste caso.
Peter Ellis
AFAIK pode, mas há uma opção de algoritmo genético que diminui consideravelmente o tempo necessário para avaliar todos os modelos. Veja www.jstatsoft.org/v34/i12/paper
OliP
3
Além disso MuMIn, AICcmodavgpackages, embora glmultiseja mais inteligente em relação a grandes conjuntos de modelos.
Ben Bolker
8

@johannes deu uma excelente resposta. Se você é um usuário SAS, o LASSO está disponível através do PROC GLMSELECT e mínimos quadrados parciais através do PROC PLS.

David Cassell e eu fizemos uma apresentação sobre o LASSO (e a regressão menos angular) em alguns grupos de usuários do SAS. Está disponível aqui

Peter Flom - Restabelece Monica
fonte
7

Discussão interessante. Rotular a regressão gradual como pecado estatístico é um pouco de uma afirmação religiosa - desde que se saiba o que eles estão fazendo e que os objetivos do exercício sejam claros, é definitivamente uma boa abordagem com seu próprio conjunto de suposições e, certamente, tendencioso e não garante a otimização, etc. No entanto, o mesmo pode ser dito de muitas outras coisas que fazemos. Não vi o CCA mencionado, que aborda o problema mais fundamental da estrutura de correlação no espaço covariável, garante a otimização, já existe há bastante tempo e apresenta uma curva de aprendizado. É implementado em uma variedade de plataformas, incluindo R.

gillesc
fonte