Defina a estimativa do laço onde a i ^ {th} linha x_i \ in \ mathbb {R} ^ p da matriz de design X \ in \ mathbb {R} ^ {n \ times p} é um vetor de covariáveis para explicar a resposta estocástica y_i (para i = 1, \ pontos n ).
Sabemos que para , a estimativa do laço . (Veja, por exemplo, o escopo do parâmetro de ajuste Lasso e Ridge .) Em outra notação, isso está expressando que . Observe que Podemos ver isso visualmente com a seguinte imagem exibindo o caminho da solução do laço:
Observe que no distante lado direito da trama, todos os coeficientes são zero. Isso acontece no ponto descrito acima.
A partir deste enredo, nós também notar que na distante lado esquerdo, todos do coeficiente são diferentes de zero: o que é o valor de em que qualquer componente de é inicialmente zero? Ou seja, o que igual a, como uma função de e ? Estou interessado em uma solução de formulário fechado. Em particular, não estou interessado em uma solução algorítmica, como, por exemplo, sugerir que o LARS poderia encontrar o nó através da computação.p X X min = min ∃ jXy
Apesar dos meus interesses, parece que pode não estar disponível em formato fechado, pois, caso contrário, os pacotes computacionais do laço provavelmente tirariam vantagem disso ao determinar a profundidade do parâmetro de ajuste durante a validação cruzada. À luz disso, estou interessado em qualquer coisa que possa ser teoricamente mostrada sobre e (ainda) particularmente interessada em um formulário fechado. λ m i n
fonte
Respostas:
A estimativa do laço descrita na pergunta é o equivalente multiplicador de lagrange do seguinte problema de otimização:
Essa otimização tem uma representação geométrica de encontrar o ponto de contato entre uma esfera multidimensional e um politopo (estendido pelos vetores de X). A superfície do politopo representa . O quadrado do raio da esfera representa a função e é minimizado quando as superfícies entram em contato.g(β) f(β)
As imagens abaixo fornecem uma explicação gráfica. As imagens utilizaram o seguinte problema simples com vetores de comprimento 3 (para simplificar, a fim de poder fazer um desenho):
As imagens mostram:
Mostramos três imagens:
O intervalo de ou para o qual temos o primeiro e o terceiro casos pode ser facilmente calculado devido à sua representação geométrica simples.t λ
Caso 1: apenas um único diferente de zeroβi
O diferente de zero é aquele para o qual o vetor associado tem o valor absoluto mais alto da covariância com (este é o ponto do paralelotopo mais próximo da solução OLS). Podemos calcular o multiplicador de Lagrange abaixo do qual temos pelo menos um diferente de zero usando a derivada comβi xi y λ m um x β ± β i β iy^ λmax β ±βi (o sinal depende se aumentamos o na direção negativa ou positiva):βi
o que leva a
que é igual a| | XTy| |∞ mencionado nos comentários.
onde devemos notar que isso só é verdade para o caso especial em que a ponta do politopo está tocando a esfera ( portanto, essa não é uma solução geral , embora a generalização seja direta).
Caso 3: Todos os são diferentes de zero.βEu
Nesse caso, uma faceta do politopo está tocando a esfera. Então a direção da mudança do caminho do laço é normal para a superfície da faceta específica.
O politopo tem muitas facetas, com contribuições positivas e negativas do . No caso da última etapa do laço, quando a solução do laço estiver próxima da solução ols, as contribuições do deverão ser definidas pelo sinal da solução OLS. O normal da faceta pode ser definido tomando o gradiente da função , o valor da soma de beta no pontoxEu xEu | | β( R ) | |1 r , que é:
e a mudança equivalente de beta para essa direção é:
que depois de alguns truques algébricos com a mudança das transposições (ATBT=[BA]T ) e a distribuição de colchetes se torna
normalizamos esta direção:
Para encontrar oλmin abaixo do qual todos os coeficientes são diferentes de zero. Só precisamos calcular novamente a partir da solução OLS até o ponto em que um dos coeficientes é zero,
, e neste momento avaliamos a derivada (como antes, quando calculamos ). Usamos que, para uma função quadrática, temos :λmax q′(x)=2q(1)x
Imagens
um ponto do politopo está tocando a esfera, um único é diferente de zero:βi
uma crista (ou difere em várias dimensões) do pólipo está tocando a esfera, muitos são diferentes de zero:βi
uma faceta do politopo está tocando a esfera, todos são diferentes de zero:βi
Exemplo de código:
nota: essas últimas três linhas são as mais importantes
Escrito por StackExchangeStrike
fonte