Estou tentando resolver um problema para regressão de menor ângulo (LAR). Este é um problema 3.23 na página 97 de Hastie et al., Elements of Statistical Learning, 2nd. ed. (5ª impressão) .
Considere um problema de regressão com todas as variáveis e respostas com média zero e desvio padrão um. Suponha também que cada variável tenha correlação absoluta idêntica com a resposta:
Seja o coeficiente de mínimos quadrados de em e deixe para . yXu(α)=αX β α∈[0,1]
Me pedem para mostrar que estou tendo problemas com isso. Observe que isso pode basicamente dizer que as correlações de cada com os resíduos permanecem iguais em magnitude à medida que avançamos em direção a .xju
Também não sei como mostrar que as correlações são iguais a:
Qualquer ponteiro seria muito apreciado!
Respostas:
Este é o problema 3.23 na página 97 de Hastie et al., Elements of Statistical Learning , 2nd. ed. (5ª impressão) .
A chave para este problema é uma boa compreensão dos mínimos quadrados comuns (isto é, regressão linear), particularmente a ortogonalidade dos valores ajustados e dos resíduos.
Ortogonalidade lema : Let ser o matriz de design, o vector de resposta e os parâmetros (true). Assumindo que é de classificação completa (o que faremos ao longo), as estimativas de OLS de são . Os valores ajustados são . Então . Ou seja, os valores ajustados são ortogonais aos resíduos. Isto ocorre desde que .N × p y β X β β = ( X T X ) - 1 X T y y = X ( X T X ) - 1 X T y ⟨ y , y - y ⟩ = Y T ( y - y ) = 0 X T ( Y -X n×p y β X β β^=(XTX)−1XTy y^=X(XTX)−1XTy ⟨y^,y−y^⟩=y^T(y−y^)=0 XT(y−y^)=XTy−XTX(XTX)−1XTy=XTy−XTy=0
Agora, deixe ser um vector de coluna de modo a que é a ésima coluna de . As condições assumidas são:x j j Xxj xj j X
Observe que, em particular , a última instrução do lema da ortogonalidade é idêntica a para todos os .⟨xj,y−y^⟩=0 j
As correlações estão vinculadas
Agora, . Então, e o segundo termo no lado direito é zero pelo lema da ortogonalidade , então conforme desejado. O valor absoluto das correlações é apenasu(α)=αXβ^=αy^
Nota : O lado direito acima é independente de e o numerador é igual à covariância, pois assumimos que todos os 's e estão centralizados (portanto, em particular, nenhuma subtração da média é necessária )j xj y
Qual é o objetivo? À medida que aumenta, o vetor de resposta é modificado, de modo que ele se aproxima da solução de mínimos quadrados ( restrita! ) Obtida da incorporação apenas dos primeiros parâmetros no modelo. Isso modifica simultaneamente os parâmetros estimados, pois são simples produtos internos dos preditores com o vetor de resposta (modificado). A modificação assume uma forma especial. Mantém a (magnitude das) correlações entre os preditores e a resposta modificada a mesma ao longo do processo (mesmo que o valor da correlação esteja mudando). Pense no que isso está fazendo geometricamente e você entenderá o nome do procedimento!α p
Forma explícita da correlação (absoluta)
Vamos nos concentrar no termo no denominador, pois o numerador já está no formato necessário. Temos
Substituindo em e usando a linearidade do produto interno, obtemosu(α)=αy^
Observe aquilo
Juntando tudo isso, você notará que temos
Para finalizar, e, portanto, fica claro que está monotonicamente diminuindo em e como . ρ j(α)α ρ j(α)↓0α↑11−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0 ρ^j(α) α ρ^j(α)↓0 α↑1
Epílogo : concentre-se nas idéias aqui. Existe realmente apenas um. O lema da ortogonalidade faz quase todo o trabalho para nós. O resto é apenas álgebra, notação e a capacidade de colocar esses dois últimos em funcionamento.
fonte