Regressão linear esparsa 0-norma e 1-norma

8

Temos uma resposta e preditoresYRnX=(x1,x2,,xm)TRn×m

O problema que queremos resolver é

argminkRm(YXk22+λk0)k0

No entanto, é difícil para NP; portanto, resolvemos

argminkRm(YXk22+λk1)k1

Neste artigo "Aprendendo descritores físicos para ciência dos materiais por sensor comprimido" , diz-se que

com recursos altamente correlacionados, λk1 pode não ser uma boa aproximação para λk0

Minhas perguntas:

Ambos λk0 e λk1 colocar uma restrição no número de componentes diferentes de zero do vector de k . Mas quando os recursos são correlacionados, qual é a vantagem do k encontrado por λk0 ?

Além disso, existe um exemplo intuitivo que demonstra o ponto que citei acima?

meTchaikovsky
fonte

Respostas:

2
  1. Se os recursos estiverem correlacionados, você deve usar uma rede elástica e não um laço.
  2. Aproximadamente, se dois recursos são correlacionados, o laço escolheria o recurso sobre se tiver a melhor recompensa na função de perda, isso significa um valor absoluto menordo coeficiente de regressão juntamente com uma boa diminuição no erro de previsão .ij|βi|||yXβ||2
  3. Por outro lado, o pena com base -norm escolheria o recurso sobre se conduzir a uma boa redução no erro de previsão única , pois o tamanho do coeficiente não importa, apenas se for diferente de zero (lembre-se , ).l0ij||β||0=#{βk0}
  4. Agora, minha intuição seria que as - e - são igualmente ruins na previsão de coeficientes de regressão corretos se os recursos estiverem correlacionados. A prova do Teorema 2 neste artigo deve ilustrar por que esse é realmente o caso. Isso estaria em contradição com a afirmação e o exemplo do artigo que você citou.l1l0
Edgar
fonte