LASSO e cordilheira na perspectiva bayesiana: e o parâmetro tuning?

17

Estima-se que os estimadores de regressão penalizados, como LASSO e cume, correspondam aos estimadores bayesianos com certos antecedentes. Eu acho (como eu não sei o suficiente sobre estatísticas bayesianas) que, para um parâmetro de ajuste fixo, existe um prévio concreto correspondente.

Agora, um frequentista otimizaria o parâmetro de ajuste por validação cruzada. Existe um equivalente bayesiano de fazê-lo e é usado? Ou a abordagem bayesiana efetivamente corrige o parâmetro de ajuste antes de ver os dados? (Acho que o último seria prejudicial ao desempenho preditivo.)

Richard Hardy
fonte
3
Imagino que uma abordagem totalmente bayesiana começaria com um dado anterior e não o modificasse, sim. Mas há também uma abordagem empírica-bayes que otimiza os valores dos hiperparâmetros: por exemplo, consulte stats.stackexchange.com/questions/24799 .
Ameba diz Reinstate Monica
Pergunta adicional (poderia fazer parte do Q principal): Existem alguns anteriores no parâmetro de regularização que, de alguma forma, substituem o processo de validação cruzada?
Kjetil b halvorsen
1
Os bayesianos podem colocar um prior no parâmetro de ajuste, pois geralmente corresponde a um parâmetro de variação. Geralmente é o que é feito para evitar o CV, a fim de permanecer totalmente Bayes. Como alternativa, você pode usar o REML para otimizar o parâmetro de regularização.
cara
2
PS: para aqueles que apontam para a recompensa, observe meu comentário: quero ver uma resposta explícita que mostre uma prévia que induza uma estimativa do MAP equivalente à validação cruzada frequente.
precisa saber é o seguinte
1
@ statslearner2 Acho que aborda muito bem a pergunta de Richard. Sua recompensa parece estar focada em um aspecto mais restrito (sobre uma hiperprior) do que o Q de Richard.
ameba diz Reintegrar Monica

Respostas:

18

Estima-se que os estimadores de regressão penalizados, como LASSO e cume, correspondam aos estimadores bayesianos com certos antecedentes.

Sim, está correto. Sempre que temos um problema de otimização envolvendo maximização da função de probabilidade logarítmica mais uma função de penalidade nos parâmetros, isso é matematicamente equivalente à maximização posterior, na qual a função de penalidade é considerada o logaritmo de um kernel anterior. Para ver isso, suponha que tenhamos uma função de penalidade w usando um parâmetro de ajuste λ . A função objetivo nesses casos pode ser escrita como:wλ

Hx(θ|λ)=x(θ)w(θ|λ)=ln(Lx(θ)exp(w(θ|λ)))=ln(Lx(θ)π(θ|λ)Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,

onde usamos o anterior π(θ|λ)exp(w(θ|λ)) . Observe aqui que o parâmetro de ajuste na otimização é tratado como um hiperparâmetro fixo na distribuição anterior. Se você estiver executando uma otimização clássica com um parâmetro de ajuste fixo, isso equivale a executar uma otimização bayesiana com um hiperparâmetro fixo. Para a regressão LASSO e Ridge, as funções de penalidade e os equivalentes anteriores correspondentes são:

LASSO Regressionπ(θ|λ)=k=1mLaplace(0,1λ)=k=1mλ2exp(λ|θk|),Ridge Regressionπ(θ|λ)=k=1mNormal(0,12λ)=k=1mλ/πexp(λθk2).

O primeiro método penaliza os coeficientes de regressão de acordo com sua magnitude absoluta, o que equivale a impor um Laplace anterior localizado em zero. O último método penaliza os coeficientes de regressão de acordo com sua magnitude ao quadrado, o que equivale a impor um prior normal localizado em zero.

Agora, um frequentista otimizaria o parâmetro de ajuste por validação cruzada. Existe um equivalente bayesiano de fazê-lo e é usado?

Enquanto o método freqüentista puder ser colocado como um problema de otimização (ao invés de dizer, incluindo um teste de hipóteses ou algo assim), haverá uma analogia bayesiana usando um equivalente anterior. Assim como os freqüentadores podem tratar o parâmetro de ajuste λ como desconhecido e estimar isso a partir dos dados, o bayesiano pode tratar similarmente o hiperparâmetro λ como desconhecido. Em uma análise bayesiana completa, isso envolveria atribuir ao hiperparâmetro o seu próprio anterior e encontrar o máximo posterior abaixo dele, o que seria análogo a maximizar a seguinte função objetivo:

Hx(θ,λ)=x(θ)w(θ|λ)h(λ)=ln(Lx(θ)exp(w(θ|λ))exp(h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.

This method is indeed used in Bayesian analysis in cases where the analyst is not comfortable choosing a specific hyperparameter for their prior, and seeks to make the prior more diffuse by treating it as unknown and giving it a distribution. (Note that this is just an implicit way of giving a more diffuse prior to the parameter of interest θ.)

(Comment from statslearner2 below) I'm looking for numerical equivalent MAP estimates. For instance, for a fixed penalty Ridge there is a gaussian prior that will give me the MAP estimate exactly equal the ridge estimate. Now, for k-fold CV ridge, what is the hyper-prior that would give me the MAP estimate which is similar to the CV-ridge estimate?

Before proceeding to look at K-fold cross-validation, it is first worth noting that, mathematically, the maximum a posteriori (MAP) method is simply an optimisation of a function of the parameter θ and the data x. If you are willing to allow improper priors then the scope encapsulates any optimisation problem involving a function of these variables. Thus, any frequentist method that can be framed as a single optimisation problem of this kind has a MAP analogy, and any frequentist method that cannot be framed as a single optimisation of this kind does not have a MAP analogy.

In the above form of model, involving a penalty function with a tuning parameter, K-fold cross-validation is commonly used to estimate the tuning parameter λ. For this method you partition the data vector x into K sub-vectors x1,...,xK. For each of sub-vector k=1,...,K you fit the model with the "training" data xk and then measure the fit of the model with the "testing" data xk. In each fit you get an estimator for the model parameters, which then gives you predictions of the testing data, which can then be compared to the actual testing data to give a measure of "loss":

Estimatorθ^(xk,λ),Predictionsx^k(xk,λ),Testing lossLk(x^k,xk|xk,λ).

The loss measures for each of the K "folds" can then be aggregated to get an overall loss measure for the cross-validation:

L(x,λ)=kLk(x^k,xk|xk,λ)

One then estimates the tuning parameter by minimising the overall loss measure:

λ^λ^(x)arg min λL(x,λ).

We can see that this is an optimisation problem, and so we now have two seperate optimisation problems (i.e., the one described in the sections above for θ, and the one described here for λ). Since the latter optimisation does not involve θ, we can combine these optimisations into a single problem, with some technicalities that I discuss below. To do this, consider the optimisation problem with objective function:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ),

where δ>0 is a weighting value on the tuning-loss. As δ the weight on optimisation of the tuning-loss becomes infinite and so the optimisation problem yields the estimated tuning parameter from K-fold cross-validation (in the limit). The remaining part of the objective function is the standard objective function conditional on this estimated value of the tuning parameter. Now, unfortunately, taking δ= screws up the optimisation problem, but if we take δ to be a very large (but still finite) value, we can approximate the combination of the two optimisation problems up to arbitrary accuracy.

From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and K-fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ)=ln(Lx(θ,λ)π(θ,λ)Lx(θ,λ)π(θ,λ)dθ)+const,

where Lx(θ,λ)exp(x(θ)δL(x,λ)) and π(θ,λ)exp(w(θ|λ)), with a fixed (and very large) hyper-parameter δ.


This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.

Reinstate Monica
fonte
2
Ok +1 already, but for the bounty I'm looking for these more precise answers.
statslearner2
4
1. I do not get how (since frequentists generally use classical hypothesis tests, etc., which have no Bayesian equivalent) connects to the rest of what I or you are saying; parameter tuning has nothing to do with hypothesis tests, or does it? 2. Do I understand you correctly that there is no Bayesian equivalent to frequentist regularized estimation when the tuning parameter is selected by cross validation? What about empirical Bayes that amoeba mentions in the comments to the OP?
Richard Hardy
3
3. Since regularization with cross validation seems to be quite effective for, say, prediction, doesn't point 2. suggest that the Bayesian approach is somehow inferior?
Richard Hardy
1
@Ben, thanks for your explicit answer and the subsequent clarifications. You have once again done a wonderful job! Regarding 3., yes, it was quite a jump; it certainly is not a strict logical conclusion. But looking at your points w.r.t. 2. (that a Bayesian method can approximate the frequentist penalized optimization with cross validation), I no longer think that Bayesian must be "inferior". The last quibble on my side is, could you perhaps explain how the last, complicated formula could arise in practice in the Bayesian paradigm? Is it something people would normally use or not?
Richard Hardy
2
@ Ben (ctd) Meu problema é que sei pouco sobre Bayes. Uma vez técnico, posso facilmente perder a perspectiva. Então, eu me pergunto se essa analogia complicada (a última fórmula) é algo que é apenas uma possibilidade técnica ou melhor, algo que as pessoas costumam usar. Em outras palavras, estou interessado em saber se a idéia por trás da validação cruzada (aqui no contexto da estimativa penalizada) é retumbante no mundo bayesiano, se suas vantagens são utilizadas lá. Talvez essa possa ser uma pergunta separada, mas uma breve descrição será suficiente para este caso em particular.
Richard Hardy
6

Indeed most penalized regression methods correspond to placing a particular type of prior to the regression coefficients. For example, you get the LASSO using a Laplace prior, and the ridge using a normal prior. The tuning parameters are the “hyperparameters” under the Bayesian formulation for which you can place an additional prior to estimate them; for example, for in the case of the ridge it is often assumed that the inverse variance of the normal distribution has a χ2 prior. However, as one would expect, resulting inferences can be sensitive to the choice of the prior distributions for these hyperparameters. For example, for the horseshoe prior there are some theoretical results that you should place such a prior for the hyperparameters that it would reflect the number of non-zero coefficients you expect to have.

A nice overview of the links between penalized regression and Bayesian priors is given, for example, by Mallick and Yi.

Dimitris Rizopoulos
fonte
Thank you for your answer! The linked paper is quite readable, which is nice.
Richard Hardy
2
This does not answer the question, can you elaborate to explain how does the hyper-prior relate to k-fold CV?
statslearner2