Por que a regressão do cume é chamada “cume”, por que é necessária e o que acontece quando
71
Cume estimativa coeficiente de regressão β R são os valores que minimizam oβ^R
RSS+λ∑j=1pβ2j.
Minhas perguntas são:
Se λ=0 , vemos que a expressão acima se reduz ao RSS usual. E se λ→∞ ? Não compreendo a explicação do livro didático sobre o comportamento dos coeficientes.
Para ajudar a entender o conceito por trás de um termo específico, por que o termo é chamado de Regressão RIDGE? (Por que cume?) E o que poderia estar errado com a regressão comum / comum de que é necessário introduzir um novo conceito chamado regressão de cume?
Darei uma noção intuitiva do motivo pelo qual estamos falando de cordilheiras primeiro (o que também sugere por que é necessário), depois abordarei um pouco da história. O primeiro é adaptado da minha resposta aqui :
β−2logL
A regressão de cume "corrige" a crista - ela adiciona uma penalidade que transforma a crista em um pico agradável no espaço de probabilidade, equivalente a uma depressão agradável no critério que estamos minimizando:
A história real por trás do nome é um pouco mais complicada. Em 1959, AE Hoerl [1] introduziu a análise de crista para a metodologia da superfície de resposta, e muito em breve [2] tornou-se adaptado para lidar com a multicolinearidade na regressão ('regressão de crista'). Veja, por exemplo, a discussão de RW Hoerl em [3], onde descreve o uso de Hoerl (AE, não RW) de curvas de nível da superfície de resposta * na identificação de onde ir para encontrar ótimos locais (onde alguém 'lidera o cume'). Em problemas mal condicionados, surge a questão de uma crista muito longa, e os insights e a metodologia da análise da crista são adaptados à questão relacionada com a probabilidade / RSS na regressão, produzindo regressão da crista.
* exemplos de gráficos de contorno da superfície de resposta (no caso de resposta quadrática) podem ser vistos aqui (Fig 3.9-3.12).
XTX
Para obter informações adicionais sobre a necessidade de regressão de crista, consulte o primeiro link no item 2. da lista acima.
Referências:
[1]: Hoerl, AE (1959). Solução ótima de muitas equações de variáveis. Progresso em Engenharia Química ,
55 (11) 69-78.
[2]: Hoerl, AE (1962). Aplicações da análise de crista a problemas de regressão. Progresso em Engenharia Química ,
58 (3) 54-59.
[3] Hoerl, RW (1985). Análise de Ridge 25 anos depois.
American Statistician , 39 (3), 186-192
Isso é extremamente útil. Sim, quando eu estava pedindo idéias, estava procurando intuição. É claro que a matemática é importante, mas eu também estava procurando explicações conceituais, porque há algumas partes em que a matemática estava além de mim. Obrigado novamente.
cgo
Por que você tem a palavra "ponderada" no ponto 1 da bala?
Ameba diz Reinstate Monica
11
É uma boa pergunta; não há necessidade de ser ponderado, a menos que a regressão original tenha sido ponderada. Eu removi o adjetivo. É também possível escrevê-lo como uma regressão ponderada (que se você já está fazendo regressão ponderada pode ser muito ligeiramente mais fácil lidar com).
Glen_b
36
λ→∞ββ=0
(Atualização: consulte a resposta de Glen_b. Este não é o motivo histórico correto!)
porque é estritamente monótono e isso é equivalente a
log
minβ∈Rp||y−Xβ||2+λβTβ
o que deve parecer bastante familiar.
Portanto, vemos que, se colocarmos um normal anterior com média 0 e variância em nosso vetor , o valor de que maximiza o posterior é o estimador de crista. Observe que isso trata mais como um parâmetro frequentista, porque não há um precedente, mas não é conhecido; portanto, isso não é totalmente bayesiano.σ2λββσ2
Edit: você perguntou sobre o caso em que . Sabemos que um hiperplano em é definido por exatamente pontos. Se estivermos executando uma regressão linear e , interpolamos exatamente nossos dados e obtemos . Essa é uma solução, mas é terrível: nosso desempenho em dados futuros provavelmente será péssimo. Agora suponha que : não exista mais um hiperplano único definido por esses pontos. Podemos encaixar uma infinidade de hiperplanos, cada um com 0 soma residual de quadrados.n<pRppn=p||y−Xβ^||2=0n<p
Um exemplo muito simples: suponha que . Então, vamos obter uma linha entre esses dois pontos. Agora suponha que mas . Imagine um avião com esses dois pontos. Podemos girar esse plano sem alterar o fato de que esses dois pontos estão nele; portanto, existem inúmeros modelos, todos com um valor perfeito de nossa função objetivo; portanto, além da questão do ajuste excessivo, não está claro qual escolher.n=p=2n=2p=3
Como comentário final (por sugestão de @ gung), o LASSO (usando uma penalidade de ) é comumente usado para problemas de alta dimensão porque realiza automaticamente a seleção de variáveis (define alguns ). Por incrível que pareça, o LASSO é equivalente a encontrar o modo posterior ao usar um exponencial duplo (aka Laplace) antes do vetor . O LASSO também tem algumas limitações, tais como saturando a preditores e não necessariamente a manipulação de grupos preditores correlacionados de um modo ideal, de modo que a rede elástica (combinação convexa de e penalidades) pode ser exercida.L1βj=0βnL1L2
(+1) Sua resposta pode ser melhorada, elaborando a conexão entre regressão bayesiana e de crista.
Reponha Monica
11
Vai fazer - digitando-o agora.
JLD
4
O OLS não pode encontrar uma solução exclusiva quando porque a matriz de design não possui classificação completa. Isso é uma pergunta muito comum; pesquise nos arquivos uma descrição de por que isso não funciona. n<p
Reponha Monica
2
@cgo: a explicação e a sugestão de pesquisar do user777 são boas, mas por uma questão de completude, também adicionei uma (espero) explicação intuitiva.
JLD
5
+1, boa resposta. No entanto, você pode mencionar que o LASSO é normalmente usado neste caso e que está intimamente relacionado ao RR.
(Atualização: consulte a resposta de Glen_b. Este não é o motivo histórico correto!)
o que deve parecer bastante familiar.
Portanto, vemos que, se colocarmos um normal anterior com média 0 e variância em nosso vetor , o valor de que maximiza o posterior é o estimador de crista. Observe que isso trata mais como um parâmetro frequentista, porque não há um precedente, mas não é conhecido; portanto, isso não é totalmente bayesiano.σ2λ β β σ2
Edit: você perguntou sobre o caso em que . Sabemos que um hiperplano em é definido por exatamente pontos. Se estivermos executando uma regressão linear e , interpolamos exatamente nossos dados e obtemos . Essa é uma solução, mas é terrível: nosso desempenho em dados futuros provavelmente será péssimo. Agora suponha que : não exista mais um hiperplano único definido por esses pontos. Podemos encaixar uma infinidade de hiperplanos, cada um com 0 soma residual de quadrados.n<p Rp p n=p ||y−Xβ^||2=0 n<p
Um exemplo muito simples: suponha que . Então, vamos obter uma linha entre esses dois pontos. Agora suponha que mas . Imagine um avião com esses dois pontos. Podemos girar esse plano sem alterar o fato de que esses dois pontos estão nele; portanto, existem inúmeros modelos, todos com um valor perfeito de nossa função objetivo; portanto, além da questão do ajuste excessivo, não está claro qual escolher.n=p=2 n=2 p=3
Como comentário final (por sugestão de @ gung), o LASSO (usando uma penalidade de ) é comumente usado para problemas de alta dimensão porque realiza automaticamente a seleção de variáveis (define alguns ). Por incrível que pareça, o LASSO é equivalente a encontrar o modo posterior ao usar um exponencial duplo (aka Laplace) antes do vetor . O LASSO também tem algumas limitações, tais como saturando a preditores e não necessariamente a manipulação de grupos preditores correlacionados de um modo ideal, de modo que a rede elástica (combinação convexa de e penalidades) pode ser exercida.L1 βj=0 β n L1 L2
fonte