A regressão de ângulo mínimo mantém as correlações monotonicamente decrescentes e vinculadas?

9

Estou tentando resolver um problema para regressão de menor ângulo (LAR). Este é um problema 3.23 na página 97 de Hastie et al., Elements of Statistical Learning, 2nd. ed. (5ª impressão) .

Considere um problema de regressão com todas as variáveis ​​e respostas com média zero e desvio padrão um. Suponha também que cada variável tenha correlação absoluta idêntica com a resposta:

1N|xj,y|=λ,j=1,...,p

Seja o coeficiente de mínimos quadrados de em e deixe para . yXu(α)=αX β α[0,1]β^yXu(α)=αXβ^α[0,1]

Me pedem para mostrar que estou tendo problemas com isso. Observe que isso pode basicamente dizer que as correlações de cada com os resíduos permanecem iguais em magnitude à medida que avançamos em direção a .xju

1N|xj,yu(α)|=(1α)λ,j=1,...,p
xju

Também não sei como mostrar que as correlações são iguais a:

λ(α)=(1α)(1α)2+α(2α)NRSSλ

Qualquer ponteiro seria muito apreciado!

Belmont
fonte
2
@ Belmont, o que é ? Você poderia fornecer mais contexto sobre o seu problema? O link para o artigo com propriedades padrão do LAR, por exemplo, ajudaria muito. u(α)
mpiktas
@ Belmont, isso parece um problema de Hastie et al., Elements of Statistical Learning , 2nd. ed. Isso é lição de casa? Nesse caso, você pode adicionar essa tag.
cardeal
@ Belmont, agora que o @ cardinal deu uma resposta completa, você pode especificar o que realmente é o LAR, para referência futura? A julgar pela resposta, trata-se da manipulação padrão de produtos com regressões de mínimos quadrados, dadas algumas restrições iniciais. Não deve haver um nome especial para ele sem motivo sério.
mpiktas
11
@mpiktas, é um algoritmo stagewise, portanto, toda vez que uma variável entra ou sai do modelo no caminho da regularização, o tamanho (ou seja, cardinalidade / dimensão) de cresce ou diminui respectivamente e uma "nova" estimativa de LS é usada com base em as variáveis ​​atualmente "ativas". No caso do laço, que é um problema de otimização convexa, o procedimento é explorar essencialmente uma estrutura especial nas condições KKT para obter uma solução muito eficiente. Também existem generalizações para, por exemplo, a regressão logística baseada no IRLS e Heine-Borel (para provar convergência no número finito de etapas.)β
cardeal
11
@ Belmont -1, como comprei recentemente o livro de Hastie, posso confirmar que este é um exercício dele. Então, eu estou lhe dando um grande -1, já que você nem consegue dar todas as definições, nem estou falando em dar a referência.
Mvctas

Respostas:

21

Este é o problema 3.23 na página 97 de Hastie et al., Elements of Statistical Learning , 2nd. ed. (5ª impressão) .

A chave para este problema é uma boa compreensão dos mínimos quadrados comuns (isto é, regressão linear), particularmente a ortogonalidade dos valores ajustados e dos resíduos.

Ortogonalidade lema : Let ser o matriz de design, o vector de resposta e os parâmetros (true). Assumindo que é de classificação completa (o que faremos ao longo), as estimativas de OLS de são . Os valores ajustados são . Então . Ou seja, os valores ajustados são ortogonais aos resíduos. Isto ocorre desde que .N × p y β X β β = ( X T X ) - 1 X T y y = X ( X T X ) - 1 X T y y , y - y= Y T ( y - y ) = 0 X T ( Y -Xn×pyβXββ^=(XTX)1XTyy^=X(XTX)1XTyy^,yy^=y^T(yy^)=0XT(yy^)=XTyXTX(XTX)1XTy=XTyXTy=0

Agora, deixe ser um vector de coluna de modo a que é a ésima coluna de . As condições assumidas são:x j j XxjxjjX

  • j11Nxj,xj=1 para cada , ,j1Ny,y=1
  • 1Nxj,1p=1Ny,1p=0 que indica um vetor de comprimento , e1pp
  • 1N|xj,y|=λ para todos .j

Observe que, em particular , a última instrução do lema da ortogonalidade é idêntica a para todos os .xj,yy^=0j


As correlações estão vinculadas

Agora, . Então, e o segundo termo no lado direito é zero pelo lema da ortogonalidade , então conforme desejado. O valor absoluto das correlações é apenas u(α)=αXβ^=αy^

xj,yu(a)=xj,(1α)y+αyαy^=(1α)xj,y+αxj,yy^,
1N|xj,yu(α)|=(1α)λ,
ρ^j(α)=1N|xj,yu(α)|1Nxj,xj1Nyu(α),yu(α)=(1α)λ1Nyu(α),yu(α)

Nota : O lado direito acima é independente de e o numerador é igual à covariância, pois assumimos que todos os 's e estão centralizados (portanto, em particular, nenhuma subtração da média é necessária )jxjy

Qual é o objetivo? À medida que aumenta, o vetor de resposta é modificado, de modo que ele se aproxima da solução de mínimos quadrados ( restrita! ) Obtida da incorporação apenas dos primeiros parâmetros no modelo. Isso modifica simultaneamente os parâmetros estimados, pois são simples produtos internos dos preditores com o vetor de resposta (modificado). A modificação assume uma forma especial. Mantém a (magnitude das) correlações entre os preditores e a resposta modificada a mesma ao longo do processo (mesmo que o valor da correlação esteja mudando). Pense no que isso está fazendo geometricamente e você entenderá o nome do procedimento!αp


Forma explícita da correlação (absoluta)

Vamos nos concentrar no termo no denominador, pois o numerador já está no formato necessário. Temos

yu(α),yu(α)=(1α)y+αyu(α),(1α)y+αyu(α).

Substituindo em e usando a linearidade do produto interno, obtemosu(α)=αy^

yu(α),yu(α)=(1α)2y,y+2α(1α)y,yy^+α2yy^,yy^.

Observe aquilo

  • y,y=N por suposição,
  • y,yy^=yy^,yy^+y^,yy^=yy^,yy^ , aplicando o lema da ortogonalidade (mais uma vez) ao segundo termo no meio; e,
  • yy^,yy^=RSS por definição.

Juntando tudo isso, você notará que temos

ρ^j(α)=(1α)λ(1α)2+α(2α)NRSS=(1α)λ(1α)2(1RSSN)+1NRSS

Para finalizar, e, portanto, fica claro que está monotonicamente diminuindo em e como . ρ j(α)α ρ j(α)0α11RSSN=1N(y,y,yy^,yy^)0ρ^j(α)αρ^j(α)0α1


Epílogo : concentre-se nas idéias aqui. Existe realmente apenas um. O lema da ortogonalidade faz quase todo o trabalho para nós. O resto é apenas álgebra, notação e a capacidade de colocar esses dois últimos em funcionamento.

cardeal
fonte
2
@ cardinal, +1. A resposta são magnitudes melhores que a pergunta.
mpiktas
@ cardinal, convém alterar o link para amazon ou outro site. Penso que a ligação ao livro completo pode suscitar algumas questões de direitos autorais.
Mvctas
3
@mpiktas, não. Sem problemas de direitos autorais. Esse é o site oficial do livro. Os autores obtiveram permissão da Springer para disponibilizar o PDF gratuitamente on-line. (Veja a nota nesse sentido no site.) Acho que eles entenderam a idéia de Stephen Boyd e seu texto de otimização convexa . Esperamos que essa tendência ganhe força nos próximos anos. Desfrutar!
cardeal
@ cardinal, ooh obrigado maciço! Isso é muito generoso dos autores.
Mvctas
@mpiktas, é de longe o livro mais popular da série Springer em estatística. Parece bom em um iPad. O que me lembra - eu também deveria baixar o texto de Boyd. Felicidades.
cardeal