Estou tentando resumir o que entendi até agora na análise multivariada penalizada com conjuntos de dados de alta dimensão, e ainda luto para obter uma definição adequada da penalização de limiar suave versus penalização por Lasso (ou ).
Mais precisamente, usei a regressão PLS esparsa para analisar a estrutura de dados de dois blocos, incluindo dados genômicos ( polimorfismos de nucleotídeo único , onde consideramos a frequência do alelo menor no intervalo {0,1,2}, considerado uma variável numérica) e fenótipos contínuos (escores que quantificam traços de personalidade ou assimetria cerebral, também tratados como variáveis contínuas). A idéia era isolar os preditores mais influentes (aqui, as variações genéticas na sequência de DNA) para explicar variações fenotípicas interindividuais.
Inicialmente, usei o pacote mixOmics R (anteriormente integrOmics
), que apresenta regressão PLS penalizada e CCA regularizado . Olhando para o código R, descobrimos que a "dispersão" nos preditores é simplesmente induzida por selecionar os top variáveis com maiores cargas (em valor absoluto) sobre o th componente, (o algoritmo é o carregamento de variáveis iterativas e de computação em componentes , deflacionando o bloco de preditores a cada iteração, consulte Sparse PLS: Seleção de Variáveis ao Integrar Dados Omics para uma visão geral). Pelo contrário, o pacote spls em co-autoria de S. Keleş (consultei i = 1 , … , k k L 1A regressão de mínimos quadrados parciais esparsos para redução simultânea de dimensões e seleção de variáveis , para uma descrição mais formal da abordagem adotada por esses autores) implementa penalização para penalização variável.
Não é óbvio para mim se existe uma "bijeção" estrita, por assim dizer, entre a seleção iterativa de recursos com base no limiar suave e regularização . Então, minha pergunta é: existe alguma conexão matemática entre os dois?
Referências
- Chun, H. e Kele ̧s, S. (2010), mínimos quadrados parciais esparsos para redução simultânea de dimensões e seleção de variáveis . Jornal da Sociedade Estatística Real: Série B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C. e Besse, P. (2008), A Sparse PLS for Variable Selection ao integrar Data Omics . Aplicações Estatísticas em Genética e Biologia Molecular , 7 , Artigo 35.
lars
pacote R; outros métodos incluem descida de coordenadas (consulte JSS 2010 33 (1), bit.ly/bDNUFo ) e oscikit.learn
pacote Python apresenta as duas abordagens, bit.ly/bfhnZz .L 1L1 penalização faz parte de um problema de otimização. O limiar suave faz parte de um algoritmo. Às vezes, a penalização leva à limiar suave.L1
Para a regressão, mínimos quadrados penalizados (Lasso) resulta em limiar suave quando as colunas da matriz são ortogonais (supondo que as linhas correspondam a amostras diferentes). É realmente simples derivar quando você considera o caso especial de estimativa média, em que a matriz consiste em um único em cada linha e zera em qualquer outro lugar. X X 1L1 X X 1
Para a matriz geral , o cálculo da solução Lasso por descida cíclica de coordenadas resulta em limiar suave essencialmente iterativo. Veja http://projecteuclid.org/euclid.aoas/1196438020 .X
fonte