No sensor comprimido, existe uma garantia do teorema de que possui uma solução esparsa exclusiva c (consulte o apêndice para obter mais detalhes).
Existe um teorema semelhante para o laço? Se existe um teorema, ele não apenas garantirá a estabilidade do laço, mas também fornecerá ao laço uma interpretação mais significativa:
laço pode descobrir o vetor de coeficiente de regressão esparso que é usado para gerar a resposta por .
Há duas razões pelas quais faço essa pergunta:
Eu acho que 'laço favorece uma solução esparsa' não é uma resposta para o porquê de usar laço para seleção de recursos, já que não podemos nem dizer qual é a vantagem dos recursos que selecionamos.
Aprendi que o laço é notório por ser instável na seleção de recursos. Na prática, precisamos executar amostras de bootstrap para avaliar sua estabilidade. Qual é a razão mais crucial que causa essa instabilidade?
Apêndice:
Dado . é um vetor -parse ( ). O processo gera a resposta . Se tiver a NSP (propriedade de espaço nulo) da ordem e a matriz de covariância de não tiver autovalor próximo de zero, haverá uma solução exclusiva para
O que esse teorema também diz é que, se não possui o NSP de ordem , é simplesmente impossível resolver .
EDITAR:
Depois de receber essas ótimas respostas, percebi que estava confuso ao fazer essa pergunta.
Por que essa pergunta é confusa:
Li um artigo de pesquisa no qual temos que decidir quantos recursos (colunas) a matriz de design terá (os recursos auxiliares são criados a partir dos recursos principais). Como é um problema típico de , espera-se que seja bem construído para que a solução do laço possa ser uma boa aproximação da solução esparsa real.
O raciocínio é feito a partir do teorema que mencionei no apêndice: Se pretendemos encontrar uma solução separada , é melhor ter o NSP de ordem .
Para uma matriz , se for violado, então
nenhuma recuperação estável e robusta de de e é possível
corresponde a , corresponde a
... como esperado do relacionamento , a seleção do descritor se torna mais instável, ou seja, para diferentes conjuntos de treinamento, o descritor selecionado geralmente difere ...
A segunda citação é a parte que me confunde. Parece-me que quando a desigualdade é violada, não é apenas a solução talvez não única (não mencionada), mas o descritor também se tornará mais instável.
fonte
Respostas:
ATUALIZAR
Veja neste segundo post o feedback do McDonald's sobre minha resposta, onde a noção de consistência de risco está relacionada à estabilidade.
1) Exclusividade vs estabilidade
Sua pergunta é difícil de responder porque menciona dois tópicos muito diferentes: exclusividade e estabilidade .
Intuitivamente, uma solução é única se determinado conjunto de dados fixo, o algoritmo sempre produz os mesmos resultados. A resposta de Martin cobre este ponto em grande detalhe.
Por outro lado, a estabilidade pode ser intuitivamente entendida como aquela em que a previsão não muda muito quando os dados de treinamento são modificados levemente.
A estabilidade se aplica à sua pergunta porque a seleção do recurso Lasso é (geralmente) realizada por meio da validação cruzada, portanto, o algoritmo Lasso é realizado em diferentes dobras de dados e pode gerar resultados diferentes a cada vez.
Estabilidade e Teorema do Almoço Gratuito
Usando a definição daqui, se definirmos estabilidade uniforme como:
então o "Teorema do Almoço Gratuito, Xu e Caramis (2012)" afirma que
Por exemplo, a regressão regularizada é estável e não identifica recursos redundantes, enquanto a regressão regularizada (Lasso) é instável.L2 L1
Uma tentativa de responder sua pergunta
Indo além
Isso não quer dizer que a combinação de Validação Cruzada e Lasso não funcione ... de fato, foi demonstrado experimentalmente (e com muita teoria de suporte) que funcionou muito bem sob várias condições. As principais palavras-chave aqui são consistência , risco, desigualdades no oráculo etc.
Os slides e artigo a seguir de McDonald e Homrighausen (2013) descrevem algumas condições sob as quais a seleção de recursos do Lasso funciona bem: slides e papel: "O laço, persistência e validação cruzada, McDonald e Homrighausen (2013)" . O próprio Tibshirani também postou um grande conjunto de notas sobre escassez e regressão linear
As várias condições de consistência e seu impacto no Lasso são um tópico ativo de pesquisa e definitivamente não são questões triviais. Posso apontar alguns documentos de pesquisa relevantes:
fonte
Comentários de Daniel J. McDonald
Professor assistente da Universidade de Indiana Bloomington, autor dos dois trabalhos mencionados na resposta original de Xavier Bourret Sicotte .
fonte
O Lasso, diferentemente da regressão de Ridge (ver, por exemplo, Hoerl e Kennard, 1970; Hastie et al., 2009) nem sempre tem uma solução única, embora normalmente tenha. Depende do número de parâmetros no modelo, se as variáveis são contínuas ou discretas ou não e a classificação da sua matriz de design. Condições para exclusividade podem ser encontradas em Tibshirani (2013).
Referências:
Hastie, T., Tibshirani, R. e Friedman, J. (2009). Os elementos da aprendizagem estatística . Série Springer nas estatísticas. Springer, Nova Iorque, 11ª impressão, 2ª edição.
Hoerl, AE e Kennard, RW (1970). Regressão de Ridge: estimativa enviesada para problemas não-ortogonais. Technometrics , 12 (1), 55-67.
Tibshirani, RJ (2013). O problema do laço e a singularidade. Revista Eletrônica de Estatística , 7, 1456-1490.
fonte
O que causa a não-exclusividade.
Para os vetores (em que é um sinal que indica se a alteração de aumentará ou diminuirá ), sempre que eles forem afinamente dependentes:sixi si ci ∥c∥1
há um número infinito de combinações que não alteram a solução e a norma .ci+γαi Xc ∥c∥1
Por exemplo:
possui para as soluções:∥c∥1=1
com0≤γ≤12
Podemos substituir o vetor usandox2 x2=0.5x1+0.5x3
Situações sem essa condição
No artigo de Tibshirani (da resposta de Phil), três condições suficientes são descritas para o laço ter uma solução única.
Afinamente independente Quando as colunas estão na posição geral.Xs
Ou seja, nenhuma coluna representa pontos em um plano dimensional . Um plano dimensional k-2 pode ser parametrizado por qualquer ponto como com . Com um ponto nesse mesmo plano, você teria as condições comk k−2 k−1 ∑αisixi ∑αi=1 k sjxj ∑αisixi ∑αi=0
Observe que no exemplo as colunas , e estão em uma única linha. (No entanto, é um pouco estranho aqui porque os sinais podem ser negativos, por exemplo, a matriz acabou de bem como nenhuma solução exclusiva)x1 x2 x3 [[21][11][−0−1]]
Quando as colunas são de uma distribuição contínua, é improvável (probabilidade quase zero) que você tenha colunas de fora da posição geral.X X
Contrastando com isso, se as colunas são uma variável categórica, essa probabilidade não é necessariamente quase zero. A probabilidade de uma variável contínua ser igual a algum conjunto de números (isto é, os planos correspondentes à extensão afim dos outros vetores) é 'quase' zero. Mas, este não é o caso de variáveis discretas.X
fonte