Por que a regressão do cume é chamada “cume”, por que é necessária e o que acontece quando

71

Cume estimativa coeficiente de regressão β R são os valores que minimizam oβ^R

RSS+λj=1pβj2.

Minhas perguntas são:

  1. Se λ=0 , vemos que a expressão acima se reduz ao RSS usual. E se λ ? Não compreendo a explicação do livro didático sobre o comportamento dos coeficientes.

  2. Para ajudar a entender o conceito por trás de um termo específico, por que o termo é chamado de Regressão RIDGE? (Por que cume?) E o que poderia estar errado com a regressão comum / comum de que é necessário introduzir um novo conceito chamado regressão de cume?

Suas idéias seriam ótimas.

cgo
fonte

Respostas:

89

Como você pede informações , eu adotarei uma abordagem bastante intuitiva, em vez de uma abordagem mais matemática:

  1. pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    λxλx0

    λβ

  2. Darei uma noção intuitiva do motivo pelo qual estamos falando de cordilheiras primeiro (o que também sugere por que é necessário), depois abordarei um pouco da história. O primeiro é adaptado da minha resposta aqui :

    β2logL

    A regressão de cume "corrige" a crista - ela adiciona uma penalidade que transforma a crista em um pico agradável no espaço de probabilidade, equivalente a uma depressão agradável no critério que estamos minimizando:

    cume em LS é transformado em um pico na regressão cume
    [ Imagem mais nítida ]

    A história real por trás do nome é um pouco mais complicada. Em 1959, AE Hoerl [1] introduziu a análise de crista para a metodologia da superfície de resposta, e muito em breve [2] tornou-se adaptado para lidar com a multicolinearidade na regressão ('regressão de crista'). Veja, por exemplo, a discussão de RW Hoerl em [3], onde descreve o uso de Hoerl (AE, não RW) de curvas de nível da superfície de resposta * na identificação de onde ir para encontrar ótimos locais (onde alguém 'lidera o cume'). Em problemas mal condicionados, surge a questão de uma crista muito longa, e os insights e a metodologia da análise da crista são adaptados à questão relacionada com a probabilidade / RSS na regressão, produzindo regressão da crista.

* exemplos de gráficos de contorno da superfície de resposta (no caso de resposta quadrática) podem ser vistos aqui (Fig 3.9-3.12).

XTX

Para obter informações adicionais sobre a necessidade de regressão de crista, consulte o primeiro link no item 2. da lista acima.


Referências:

[1]: Hoerl, AE (1959). Solução ótima de muitas equações de variáveis. Progresso em Engenharia Química , 55 (11) 69-78.

[2]: Hoerl, AE (1962). Aplicações da análise de crista a problemas de regressão. Progresso em Engenharia Química , 58 (3) 54-59.

[3] Hoerl, RW (1985). Análise de Ridge 25 anos depois. American Statistician , 39 (3), 186-192

Glen_b
fonte
2
Isso é extremamente útil. Sim, quando eu estava pedindo idéias, estava procurando intuição. É claro que a matemática é importante, mas eu também estava procurando explicações conceituais, porque há algumas partes em que a matemática estava além de mim. Obrigado novamente.
cgo
Por que você tem a palavra "ponderada" no ponto 1 da bala?
Ameba diz Reinstate Monica
11
É uma boa pergunta; não há necessidade de ser ponderado, a menos que a regressão original tenha sido ponderada. Eu removi o adjetivo. É também possível escrevê-lo como uma regressão ponderada (que se você já está fazendo regressão ponderada pode ser muito ligeiramente mais fácil lidar com).
Glen_b
36
  1. λββ=0

(Atualização: consulte a resposta de Glen_b. Este não é o motivo histórico correto!)

  1. β^=(XTX+λI)1XTY.
    λI

n<p

β

ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
porque é estritamente monótono e isso é equivalente a log
minβRp||yXβ||2+λβTβ

o que deve parecer bastante familiar.

Portanto, vemos que, se colocarmos um normal anterior com média 0 e variância em nosso vetor , o valor de que maximiza o posterior é o estimador de crista. Observe que isso trata mais como um parâmetro frequentista, porque não há um precedente, mas não é conhecido; portanto, isso não é totalmente bayesiano.σ2λββσ2

Edit: você perguntou sobre o caso em que . Sabemos que um hiperplano em é definido por exatamente pontos. Se estivermos executando uma regressão linear e , interpolamos exatamente nossos dados e obtemos . Essa é uma solução, mas é terrível: nosso desempenho em dados futuros provavelmente será péssimo. Agora suponha que : não exista mais um hiperplano único definido por esses pontos. Podemos encaixar uma infinidade de hiperplanos, cada um com 0 soma residual de quadrados.n<pRppn=p||yXβ^||2=0n<p

Um exemplo muito simples: suponha que . Então, vamos obter uma linha entre esses dois pontos. Agora suponha que mas . Imagine um avião com esses dois pontos. Podemos girar esse plano sem alterar o fato de que esses dois pontos estão nele; portanto, existem inúmeros modelos, todos com um valor perfeito de nossa função objetivo; portanto, além da questão do ajuste excessivo, não está claro qual escolher.n=p=2n=2p=3

Como comentário final (por sugestão de @ gung), o LASSO (usando uma penalidade de ) é comumente usado para problemas de alta dimensão porque realiza automaticamente a seleção de variáveis ​​(define alguns ). Por incrível que pareça, o LASSO é equivalente a encontrar o modo posterior ao usar um exponencial duplo (aka Laplace) antes do vetor . O LASSO também tem algumas limitações, tais como saturando a preditores e não necessariamente a manipulação de grupos preditores correlacionados de um modo ideal, de modo que a rede elástica (combinação convexa de e penalidades) pode ser exercida.L1βj=0βnL1L2

jld
fonte
11
(+1) Sua resposta pode ser melhorada, elaborando a conexão entre regressão bayesiana e de crista.
Reponha Monica
11
Vai fazer - digitando-o agora.
JLD
4
O OLS não pode encontrar uma solução exclusiva quando porque a matriz de design não possui classificação completa. Isso é uma pergunta muito comum; pesquise nos arquivos uma descrição de por que isso não funciona. n<p
Reponha Monica
2
@cgo: a explicação e a sugestão de pesquisar do user777 são boas, mas por uma questão de completude, também adicionei uma (espero) explicação intuitiva.
JLD
5
+1, boa resposta. No entanto, você pode mencionar que o LASSO é normalmente usado neste caso e que está intimamente relacionado ao RR.
gung - Restabelece Monica