O que faz com que o laço seja instável para a seleção de recursos?

12

No sensor comprimido, existe uma garantia do teorema de que possui uma solução esparsa exclusiva c (consulte o apêndice para obter mais detalhes).

argminc1subject to y=Xc
c

Existe um teorema semelhante para o laço? Se existe um teorema, ele não apenas garantirá a estabilidade do laço, mas também fornecerá ao laço uma interpretação mais significativa:

laço pode descobrir o vetor de coeficiente de regressão esparso c que é usado para gerar a resposta y por y=Xc .

Há duas razões pelas quais faço essa pergunta:

  1. Eu acho que 'laço favorece uma solução esparsa' não é uma resposta para o porquê de usar laço para seleção de recursos, já que não podemos nem dizer qual é a vantagem dos recursos que selecionamos.

  2. Aprendi que o laço é notório por ser instável na seleção de recursos. Na prática, precisamos executar amostras de bootstrap para avaliar sua estabilidade. Qual é a razão mais crucial que causa essa instabilidade?


Apêndice:

Dado XN×M=(x1,,xM) . c é um vetor Ω -parse ( ΩM ). O processo y=Xc gera a resposta y . Se X tiver a NSP (propriedade de espaço nulo) da ordem Ω e a matriz de covariância de X não tiver autovalor próximo de zero, haverá uma solução exclusiva para

argminc1subject to y=Xc
que é exatamente o c que fornece y .

O que esse teorema também diz é que, se não possui o NSP de ordem , é simplesmente impossível resolver .XΩargminc:y=Xcc1


EDITAR:

Depois de receber essas ótimas respostas, percebi que estava confuso ao fazer essa pergunta.

Por que essa pergunta é confusa:

Li um artigo de pesquisa no qual temos que decidir quantos recursos (colunas) a matriz de design terá (os recursos auxiliares são criados a partir dos recursos principais). Como é um problema típico de , espera-se que seja bem construído para que a solução do laço possa ser uma boa aproximação da solução esparsa real.XN×Mn<pD

O raciocínio é feito a partir do teorema que mencionei no apêndice: Se pretendemos encontrar uma solução separada , é melhor ter o NSP de ordem .ΩcXΩ

Para uma matriz , se for violado, entãoN×MN>CΩlnM

nenhuma recuperação estável e robusta de de e é possívelcDP

D corresponde a , corresponde aXPy

... como esperado do relacionamento , a seleção do descritor se torna mais instável, ou seja, para diferentes conjuntos de treinamento, o descritor selecionado geralmente difere ...N=CΩlnM

A segunda citação é a parte que me confunde. Parece-me que quando a desigualdade é violada, não é apenas a solução talvez não única (não mencionada), mas o descritor também se tornará mais instável.

meTchaikovsky
fonte
2
Apenas para o contexto, o problema de otimização que você anota no início do seu Q é chamado de "busca de bases". Se você substituir igualdade por igualdade aproximada (até algum erro de L2), será chamado de "denoising de busca de base". O denoising de busca de base é matematicamente equivalente ao laço. y=XcyXc
Ameba diz Reinstate Monica
Um conjunto útil de slides (mas não fácil) encontra-se aqui: pages.iu.edu/~dajmcdon/research/talks/lasso.pdf e o teorema do almoço não gratuito users.ece.utexas.edu/~cmcaram/pubs/ XuCaramanisMannor.NFL.pdf
Xavier Bourret Sicotte
O teorema que você cita é sobre singularidade. Sua pergunta é confusa porque a exclusividade não está necessariamente relacionada à estabilidade.
Ameba diz Reinstate Monica
2
Sim, eu acredito que o OP está um pouco confuso e a pergunta não está clara, portanto, as diferentes respostas possíveis ... A exclusividade é para um único conjunto de pontos de dados, a estabilidade se aplica à validação cruzada, ao bootstrap ou a novos pontos de dados
Xavier Bourret Sicotte

Respostas:

7

ATUALIZAR

Veja neste segundo post o feedback do McDonald's sobre minha resposta, onde a noção de consistência de risco está relacionada à estabilidade.


1) Exclusividade vs estabilidade

Sua pergunta é difícil de responder porque menciona dois tópicos muito diferentes: exclusividade e estabilidade .

  • Intuitivamente, uma solução é única se determinado conjunto de dados fixo, o algoritmo sempre produz os mesmos resultados. A resposta de Martin cobre este ponto em grande detalhe.

  • Por outro lado, a estabilidade pode ser intuitivamente entendida como aquela em que a previsão não muda muito quando os dados de treinamento são modificados levemente.

A estabilidade se aplica à sua pergunta porque a seleção do recurso Lasso é (geralmente) realizada por meio da validação cruzada, portanto, o algoritmo Lasso é realizado em diferentes dobras de dados e pode gerar resultados diferentes a cada vez.

Estabilidade e Teorema do Almoço Gratuito

Usando a definição daqui, se definirmos estabilidade uniforme como:

Um algoritmo possui estabilidade uniforme em relação à função de perda se o seguinte for válido:βV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

Considerado como uma função de , o termo pode ser escrito como . Dizemos que o algoritmo é estável quando diminui como .mββmβm1m

então o "Teorema do Almoço Gratuito, Xu e Caramis (2012)" afirma que

Se um algoritmo for escasso , no sentido de identificar recursos redundantes, esse algoritmo não é estável (e a estabilidade uniforme vinculada não chega a zero). [...] Se um algoritmo é estável, não há esperança de que ele seja escasso. (páginas 3 e 4)β

Por exemplo, a regressão regularizada é estável e não identifica recursos redundantes, enquanto a regressão regularizada (Lasso) é instável. L2L1

Uma tentativa de responder sua pergunta

Eu acho que 'laço favorece uma solução esparsa' não é uma resposta para por que usar laço para a seleção de recursos

  • Discordo, a razão pela qual o Lasso é usado para a seleção de recursos é que ele produz uma solução esparsa e pode mostrar que possui a propriedade IRF, ou seja, Identifica Recursos Redundantes.

Qual é a razão mais crucial que causa essa instabilidade

  • O Teorema do Almoço Gratuito

Indo além

Isso não quer dizer que a combinação de Validação Cruzada e Lasso não funcione ... de fato, foi demonstrado experimentalmente (e com muita teoria de suporte) que funcionou muito bem sob várias condições. As principais palavras-chave aqui são consistência , risco, desigualdades no oráculo etc.

Os slides e artigo a seguir de McDonald e Homrighausen (2013) descrevem algumas condições sob as quais a seleção de recursos do Lasso funciona bem: slides e papel: "O laço, persistência e validação cruzada, McDonald e Homrighausen (2013)" . O próprio Tibshirani também postou um grande conjunto de notas sobre escassez e regressão linear

As várias condições de consistência e seu impacto no Lasso são um tópico ativo de pesquisa e definitivamente não são questões triviais. Posso apontar alguns documentos de pesquisa relevantes:

Xavier Bourret Sicotte
fonte
1
Obrigado pela sua resposta abrangente! O conjunto de slides que você fornece é excelente!
meTchaikovsky
1
Ainda estou tentando processar essa definição de estabilidade. Minha tradução é que "um algoritmo é estável se a alteração da função de erro / perda deixar uma validação cruzada de fora tiver um limite superior que diminui como " quando aumentamos o número de dobras / conjuntos de teste "β1m , espero ter acertado. Eu me pergunto por que é uma propriedade desejável para que o laço funcione bem (ou mais precisamente, eu me pergunto se é uma propriedade necessária).
Sextus Empiricus
1
Sim, exceto m é o número de pontos de dados. procure aqui na página 7 um limite probabilístico: math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf - o ponto é que não há limite na tability fornecida aumentando o tamanho do conjunto de dados, o que significa que o algoritmo pode pular a hipótese de funções distantes depende de um conjunto de dados específico. Isto é porque as condições alternativos são propostos, que se relacionam com a estrutura de distribuição e correlação subjacente (penso) - mas iria precisar de ajuda tornando aqueles mais clara
Xavier Bourret Sicotte
Outra noção importante é a de consistência, conforme explicado aqui, por exemplo: stat.ethz.ch/~nicolai/stability.pdf - como a estabilidade e a consistência estão vinculadas não é clara, mas parece ser objeto de pesquisa ativa, por exemplo, cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte
Boa resposta! Você também pode atualizar alguns links com descrições mais detalhadas, caso os links se tornem inoperantes no futuro? (Eu fiz um para você já.)
Richard Hardy
7

Comentários de Daniel J. McDonald

Professor assistente da Universidade de Indiana Bloomington, autor dos dois trabalhos mencionados na resposta original de Xavier Bourret Sicotte .

Sua explicação é, geralmente, bastante correta. Gostaria de salientar algumas coisas:

  1. Nosso objetivo na série de trabalhos sobre CV e laço era provar que "Lasso + Validação Cruzada (CV)" funciona tão bem quanto "Lasso + ótimo "λ . Em particular, queríamos mostrar que as previsões também funcionam (sem modelo). Para fazer afirmações sobre a recuperação correta dos coeficientes (encontrar os não esparsos corretos), é preciso assumir uma verdade esparsa, o que não queríamos fazer.

  2. A estabilidade algorítmica implica consistência de risco (primeiro provado por Bousquet e Elisseeff, acredito). Por consistência do risco, quero dizer que ovai para zero onde f é ou o melhor preditor de alguma classe, se a classe for especificada incorretamente. Esta é apenas uma condição suficiente no entanto. É mencionado nos slides aos quais você vinculou como, essencialmente, “uma técnica de prova possível que não funcionará, já que o laço não é estável”.||f^(X)f(X)||E[Y|X]

  3. A estabilidade é apenas suficiente, mas não é necessária. Pudemos mostrar que, em algumas condições, o “laço + CV” prevê, assim como o “laço + ótimo ”. O artigo que você cita fornece as suposições mais fracas possíveis (as do slide 16, que permitem ), mas usa a forma restrita de laço em vez da versão Lagrangiana mais comum. Outro artigo ( http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html ) usa a versão Lagrangiana. Também mostra que, em condições muito mais fortes, a seleção de modelos também funcionará. Um artigo mais recente ( https://arxiv.org/abs/1605.02214 ) de outras pessoas alega melhorar esses resultados (não o li com atenção).λp>n

  4. Em geral, como o laço (ou qualquer algoritmo de seleção) não é estável, é preciso uma análise mais cuidadosa e / ou suposições fortes para mostrar que “algoritmo + CV” selecionará o modelo correto. Não estou ciente das condições necessárias, embora isso seja extremamente interessante em geral. Não é muito difícil mostrar que, para lambda fixo, o preditor de laço é localmente Lipschitz no vetor (acredito que um ou mais trabalhos de Ryan Tibshirani fazem isso). Se alguém também pudesse argumentar que isso é verdade em , isso seria muito interessante e relevante aqui.YXi

O principal argumento que eu acrescentaria à sua resposta: "estabilidade" implica "consistência de risco" ou "precisão de previsão". Também pode implicar "consistência de estimativa de parâmetros" sob mais pressupostos. Mas o teorema do almoço grátis significa "seleção" "não estável". Laço não é estável, mesmo com lambda fixo. Certamente é instável quando combinado com CV (de qualquer tipo) .No entanto, apesar da falta de estabilidade, ainda é consistente com o risco e a seleção é consistente com ou sem CV - A singularidade é imaterial aqui.

Xavier Bourret Sicotte
fonte
5

O Lasso, diferentemente da regressão de Ridge (ver, por exemplo, Hoerl e Kennard, 1970; Hastie et al., 2009) nem sempre tem uma solução única, embora normalmente tenha. Depende do número de parâmetros no modelo, se as variáveis ​​são contínuas ou discretas ou não e a classificação da sua matriz de design. Condições para exclusividade podem ser encontradas em Tibshirani (2013).

Referências:

Hastie, T., Tibshirani, R. e Friedman, J. (2009). Os elementos da aprendizagem estatística . Série Springer nas estatísticas. Springer, Nova Iorque, 11ª impressão, 2ª edição.

Hoerl, AE e Kennard, RW (1970). Regressão de Ridge: estimativa enviesada para problemas não-ortogonais. Technometrics , 12 (1), 55-67.

Tibshirani, RJ (2013). O problema do laço e a singularidade. Revista Eletrônica de Estatística , 7, 1456-1490.

Phil
fonte
@ Obrigado! Você pode adicionar um breve resumo dessas referências que você fornece?
meTchaikovsky
Hasite et al. (2009) é um livro que aborda muitos tópicos, entre eles a regressão de Lasso e Ridge. Vale a pena ler e pode ser baixado da página inicial de Hastie: web.stanford.edu/~hastie/ElemStatLearn/download.html Hoerl & Kennard (1970) é uma referência clássica de regressão de Ridge e provavelmente não é relevante diretamente para sua pergunta, outros do que ler sobre a regressão de Ridge. Tibshirani (2013) contém informações sobre quando o Lasso tem uma solução exclusiva (e quando possui uma quantidade infinita de soluções).
Phil
3

O que causa a não-exclusividade.

Para os vetores (em que é um sinal que indica se a alteração de aumentará ou diminuirá ), sempre que eles forem afinamente dependentes:sixisicic1

αisixi=0andαi=0

há um número infinito de combinações que não alteram a solução e a norma .ci+γαiXcc1

Por exemplo:

y=[11]=[210111][c1c2c3]=Xc

possui para as soluções:c1=1

[c1c2c3]=[010]+γ[121]

com0γ12

Podemos substituir o vetor usandox2x2=0.5x1+0.5x3


Situações sem essa condição

No artigo de Tibshirani (da resposta de Phil), três condições suficientes são descritas para o laço ter uma solução única.

  1. Linearmente independente Quando o espaço nulo é nulo ou equivalente quando a classificação de é igual ao número de colunas (M). Nesse caso, você não tem combinações lineares como acima.XX
  2. Afinamente independente Quando as colunas estão na posição geral.Xs

    Ou seja, nenhuma coluna representa pontos em um plano dimensional . Um plano dimensional k-2 pode ser parametrizado por qualquer ponto como com . Com um ponto nesse mesmo plano, você teria as condições comkk2k1αisixiαi=1ksjxjαisixiαi=0

    Observe que no exemplo as colunas , e estão em uma única linha. (No entanto, é um pouco estranho aqui porque os sinais podem ser negativos, por exemplo, a matriz acabou de bem como nenhuma solução exclusiva)x1x2x3[[21][11][01]]

  3. Quando as colunas são de uma distribuição contínua, é improvável (probabilidade quase zero) que você tenha colunas de fora da posição geral.XX

    Contrastando com isso, se as colunas são uma variável categórica, essa probabilidade não é necessariamente quase zero. A probabilidade de uma variável contínua ser igual a algum conjunto de números (isto é, os planos correspondentes à extensão afim dos outros vetores) é 'quase' zero. Mas, este não é o caso de variáveis ​​discretas.X

Sextus Empiricus
fonte
+1, mas eu acho que o que se entende por instável em discussões recentes está relacionada com a selecção de funções através de validação cruzada na presença de características correlacionadas
Xavier Bourret Sicotte
@XavierBourretSicotte, você quer dizer que, mesmo quando há uma solução exclusiva, o processo de seleção pode ser instável devido a recursos correlatos que adicionam problemas para (numericamente) encontrar essa solução exclusiva? É um pouco confuso, porque a pergunta pergunta, por um lado, sobre estabilidade e, por outro lado, sobre singularidade.
Sextus Empiricus
Sim, é isso que eu quero dizer, não necessariamente por causa da instabilidade numérica, mas por causa das diferenças inerentes às dobras dos dados (durante o CV), que levam a diferentes soluções para diferentes valores nas dobras. No poderia ser ainda pior quando bootstrappingλ
Xavier Bourret Sicotte
@XavierBourretSicotte No momento, não tenho uma imagem intuitiva clara sobre por que isso (soluções diferentes para diferentes e conjuntos de treinamento) deve ser instável. Eu acho que você poderia postar isso como uma resposta e explicá-lo. λ
Sextus Empiricus
@Martijn Weterings Obrigado! Ainda tenho três perguntas: 1. como faço para detectar dependência afinamente? Devo descobrir se são independentes ( math.stackexchange.com/q/82189 )? 2. como devo determinar na prática? 3. o que significa uma 'posição geral' de ? {v1v0,v2v0,,vkv0}siX
meTchaikovsky