Soft-limiar vs. Lasso penalização

11

Estou tentando resumir o que entendi até agora na análise multivariada penalizada com conjuntos de dados de alta dimensão, e ainda luto para obter uma definição adequada da penalização de limiar suave versus penalização por Lasso (ou ).L1

Mais precisamente, usei a regressão PLS esparsa para analisar a estrutura de dados de dois blocos, incluindo dados genômicos ( polimorfismos de nucleotídeo único , onde consideramos a frequência do alelo menor no intervalo {0,1,2}, considerado uma variável numérica) e fenótipos contínuos (escores que quantificam traços de personalidade ou assimetria cerebral, também tratados como variáveis ​​contínuas). A idéia era isolar os preditores mais influentes (aqui, as variações genéticas na sequência de DNA) para explicar variações fenotípicas interindividuais.

Inicialmente, usei o pacote mixOmics R (anteriormente integrOmics), que apresenta regressão PLS penalizada e CCA regularizado . Olhando para o código R, descobrimos que a "dispersão" nos preditores é simplesmente induzida por selecionar os top variáveis com maiores cargas (em valor absoluto) sobre o th componente, (o algoritmo é o carregamento de variáveis ​​iterativas e de computação em componentes , deflacionando o bloco de preditores a cada iteração, consulte Sparse PLS: Seleção de Variáveis ​​ao Integrar Dados Omics para uma visão geral). Pelo contrário, o pacote spls em co-autoria de S. Keleş (consultei i = 1 , , k k L 1kii=1,,kkA regressão de mínimos quadrados parciais esparsos para redução simultânea de dimensões e seleção de variáveis , para uma descrição mais formal da abordagem adotada por esses autores) implementa penalização para penalização variável.L1

Não é óbvio para mim se existe uma "bijeção" estrita, por assim dizer, entre a seleção iterativa de recursos com base no limiar suave e regularização . Então, minha pergunta é: existe alguma conexão matemática entre os dois?L1

Referências

  1. Chun, H. e Kele ̧s, S. (2010), mínimos quadrados parciais esparsos para redução simultânea de dimensões e seleção de variáveis . Jornal da Sociedade Estatística Real: Série B , 72 , 3–25.
  2. Le Cao, K.-A., Rossouw, D., Robert-Granie, C. e Besse, P. (2008), A Sparse PLS for Variable Selection ao integrar Data Omics . Aplicações Estatísticas em Genética e Biologia Molecular , 7 , Artigo 35.
chl
fonte

Respostas:

2

O que direi vale para a regressão, mas também deve ser verdade para o PLS. Portanto, não é uma bijeção porque, dependendo do quanto você aplica a restrição no , você terá uma variedade de 'respostas', enquanto a segunda solução admite apenas respostas possíveis (onde é o número de variáveis) <-> existem mais soluções na formulação que na formulação 'truncamento'.p p L 1l1ppl1

user603
fonte
@kwak Ok, o algoritmo LARS parece muito mais sofisticado do que simples limiares na importância das variáveis, mas o ponto é que não vejo uma relação clara entre o parâmetro de penalidade e o número de variáveis ​​que devem ser mantidas no modelo; parece-me que não podemos necessariamente encontrar um parâmetro de penalidade que produziria exatamente um número fixo de variáveis.
chl
@chl:> S-PLS você quer dizer? (você escreveu LARS, que é uma coisa diferente de qualquer algoritmo que você discute). De fato, existe uma relação monótona entre o parâmetro de penalidade e o # do componente, mas não é um conjunto de relações linear e esse relacionamento varia de acordo com cada caso (depende do conjunto de dados / problema).
user603
@kwak A penalidade de L1 pode ser alcançada usando LARS, a menos que eu seja enganoso. Seu segundo ponto é o que tenho em mente; você tem alguma referência sobre esse ponto?
chl
@chl:> * A penalidade de L1 pode ser alcançada usando o LARS, a menos que eu seja enganador *, eu não sabia disso (e duvido). Você pode fornecer uma referência? Obrigado. para sua segunda pergunta: veja os "graus de liberdade" do laço Hui Zou, Trevor Hastie e Robert Tibshirani Fonte: Ann. Statist. Volume 35, Número 5 (2007), 2173-2192. (existem muitas versões sem porta).
user603
11
@kwak Confira a página da Tibshirani, www-stat.stanford.edu/~tibs/lasso.html e o larspacote R; outros métodos incluem descida de coordenadas (consulte JSS 2010 33 (1), bit.ly/bDNUFo ) e o scikit.learnpacote Python apresenta as duas abordagens, bit.ly/bfhnZz .
chl
6

L 1L1 penalização faz parte de um problema de otimização. O limiar suave faz parte de um algoritmo. Às vezes, a penalização leva à limiar suave.L1

Para a regressão, mínimos quadrados penalizados (Lasso) resulta em limiar suave quando as colunas da matriz são ortogonais (supondo que as linhas correspondam a amostras diferentes). É realmente simples derivar quando você considera o caso especial de estimativa média, em que a matriz consiste em um único em cada linha e zera em qualquer outro lugar. X X 1L1XX1

Para a matriz geral , o cálculo da solução Lasso por descida cíclica de coordenadas resulta em limiar suave essencialmente iterativo. Veja http://projecteuclid.org/euclid.aoas/1196438020 .X

vqv
fonte
(+1) Obrigado por isso, especialmente o artigo de Friedman.
chl