Regressão na configuração

15

Estou tentando ver se é necessário regressão de crista , LASSO , regressão de componente principal (PCR) ou mínimos quadrados parciais (PLS) em uma situação em que há um grande número de variáveis ​​/ recursos ( ) e menor número de amostras ( ), e meu objetivo é a previsão.pn<p

Este é o meu entendimento:

  1. A regressão de Ridge reduz os coeficientes de regressão, mas usa todos os coeficientes sem torná-los.0

  2. O LASSO também reduz os coeficientes, mas também os torna0 , o que significa que também pode fazer a seleção de variáveis.

  3. A regressão do componente principal trunca os componentes para que p se torne menor que n ; ele descartará os componentes pn .

  4. O mínimo quadrado parcial também constrói um conjunto de combinações lineares das entradas para regressão, mas, diferentemente da PCR, ele usa y (além de X ) para redução de dimensionalidade. A principal diferença prática entre a regressão de PCR e PLS é que a PCR geralmente precisa de mais componentes que o PLS para obter o mesmo erro de previsão ( veja aqui ).

Considere os seguintes dados fictícios (os dados reais com os quais estou tentando trabalhar são semelhantes):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

Implementação de quatro métodos:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

A melhor descrição dos dados é:

  1. , na maioria das vezes p > 10 n ;p>np>10n

  2. Variáveis ​​( e Y ) estãocorrelacionadasentre si em diferentes graus.XY

Minha pergunta é qual estratégia pode ser melhor para essa situação? Por quê?

Ram Sharma
fonte
6
Não tenho uma resposta imediata, mas o capítulo 18 dos Elementos do aprendizado estatístico é dedicado a esse tópico e abrange, acredito, todas as técnicas mencionadas.
shadowtalker
@ssdecontrol Obrigado pelo livro que publicou. Tão útil
Christina

Respostas:

29

Acho que não há uma resposta única para sua pergunta - ela depende de muitas situações, dados e do que você está tentando fazer. Algumas das modificações podem ser ou devem ser modificadas para atingir a meta. No entanto, a discussão geral a seguir pode ajudar.

Antes de pular para os métodos mais avançados, vamos discutir primeiro o modelo básico: regressão dos mínimos quadrados (LS) . Há duas razões pelas quais uma estimativa dos mínimos quadrados dos parâmetros no modelo completo é insatisfatória:

  1. Qualidade da previsão: as estimativas dos mínimos quadrados geralmente têm um pequeno viés, mas uma alta variação. Às vezes, a qualidade da previsão pode ser melhorada com o encolhimento dos coeficientes de regressão ou com a definição de alguns coeficientes iguais a zero. Dessa forma, o viés aumenta, mas a variação da previsão reduz significativamente, o que leva a uma previsão geral aprimorada. Essa troca entre viés e variância pode ser facilmente vista decompondo o erro quadrático médio (MSE). Um MSE menor leva a uma melhor previsão de novos valores.

  2. Interpretabilidade : Se muitas variáveis ​​preditivas estão disponíveis, faz sentido identificar as que têm a maior influência e definir as que são zero, que não são relevantes para a previsão. Assim, eliminamos variáveis ​​que apenas explicam alguns detalhes, mas mantemos aquelas que permitem a explicação principal da variável resposta.

Assim , métodos de seleção de variáveis entram em cena. Com a seleção de variáveis, apenas um subconjunto de todas as variáveis ​​de entrada é usado, o restante é eliminado do modelo. Melhor regressão subconjunto fi NDS o subconjunto de tamanho para cada k { 0 , 1 , . . . , p } que fornece o menor RSS. Um algoritmo eficiente é o chamado algoritmo de pulos e limites que pode lidar com até 30 ou 40 variáveis ​​regressivas. Com conjuntos de dados maiores quekk{0,1,...,p}304040variáveis ​​de entrada, uma pesquisa em todos os subconjuntos possíveis se torna inviável. Assim, a seleção passo a passo para frente e a seleção passo a passo para trás são úteis. A seleção para trás só pode ser usada quando , a fim de ter um modelo bem definido. A eficiência computacional desses métodos é questionável quando p é muito alto.n>pp

Em muitas situações, temos um grande número de entradas (como a sua), geralmente altamente correlacionadas (como no seu caso). No caso de regressores altamente correlacionados, o OLS leva a parâmetros numericamente instáveis , ou seja, estimativas não confiáveis . Para evitar esse problema, usamos métodos que usam instruções de entrada derivadas. Estes métodos de produzir um pequeno número de combinações lineares z k , k = 1 , 2 , . . . , q das entradas originais x j que são usadas como entradas na regressão.βzk,k=1,2,...,qxj

Os métodos diferem em como as combinações lineares são construídas. A regressão de componentes principais (PCR) procura transformações dos dados originais em um novo conjunto de variáveis ​​não correlacionadas chamadas componentes principais .

Regressão de mínimos quadrados parciais (PLS) - essa técnica também constrói um conjunto de combinações lineares das entradas para regressão, mas, diferentemente da regressão dos componentes principais, ela usa além de X para esta construção. Assumimos que y e X estão centralizados. Em vez de calcular os parâmetros β no modelo linear, estimamos os parâmetros γ no chamado modo de variável latente . Assumimos que os novos coeficientes γ sejam da dimensão q p . O PLS faz uma regressão em uma versão ponderada do XyXyXβγγqpXque contém informações incompletas ou parciais. Como o PLS também usa para determinar as direções do PLS, esse método deve ter melhor desempenho de previsão do que, por exemplo, a PCR. Ao contrário da PCR, o PLS está procurando direções com alta variação e grande correlação com y .yy

Os métodos de contração mantêm todas as variáveis ​​no modelo e atribuem diferentes pesos ( contínuos ). Dessa forma, obtemos um procedimento mais suave com menor variabilidade. A regressão de Ridge reduz os coeficientes impondo uma penalidade no seu tamanho. Os coeficientes das cordilheiras minimizam uma soma residual penalizada dos quadrados. Aqui é um parâmetro de complexidade que controla a quantidade de encolhimento: quanto maior o valor de λ , maior a quantidade de encolhimento. Os coeficientes são reduzidos para zero (e um para o outro).λ0λ

ββ

Xpq

YiA diferença entre L1 e L2 é que L2 é a soma do quadrado dos pesos, enquanto L1 é apenas a soma dos pesos. A norma L1 tende a produzir coeficientes esparsos e possui seleção de recursos incorporada . A norma L1 não possui uma solução analítica, mas a norma L2 possui. Isso permite que as soluções da norma L2 sejam calculadas computacionalmente com eficiência. A norma L2 tem soluções exclusivas, enquanto a norma L1 não.

s0s

pN

A análise de componentes principais é um método eficaz para encontrar combinações lineares de recursos que exibem grande variação em um conjunto de dados. Mas o que buscamos aqui são combinações lineares com alta variação e correlação significativa com o resultado. Por isso, queremos incentivar a análise de componentes principais a encontrar combinações lineares de recursos que tenham alta correlação com os componentes principais supervisionados por resultados (na página 678, Algoritmo 18.1, no livro Elements of Statistical Learning ).

Parcialmente menos quadrados pesa características barulhentas, mas não as joga fora; Como resultado, um grande número de recursos ruidosos pode contaminar as previsões. O PLS com limite pode ser visto como uma versão barulhenta dos componentes principais supervisionados e, portanto, não podemos esperar que funcione tão bem na prática. Os componentes principais supervisionados podem gerar erros de teste inferiores ao Threshold PLS . No entanto, nem sempre produz um modelo esparso que envolve apenas um pequeno número de recursos.

p

rdorlearn
fonte
11
Bias2+Variance
2
O que você quer dizer quando diz que "a norma L2 tem soluções únicas, enquanto a norma L1 não". O objetivo do laço é convexo ...
Andrew M