Por que regularizar todos os parâmetros da mesma maneira?

7

Minha pergunta está relacionada à regularização em regressão linear e regressão logística. Atualmente, estou fazendo a terceira semana do curso Machine Learning de Andrew Ng sobre Coursera. Entendo como o ajuste excessivo pode ser um problema comum e tenho alguma intuição de como a regularização pode reduzir o ajuste excessivo. Minha pergunta é: podemos melhorar nossos modelos regularizando diferentes parâmetros de maneiras diferentes?


Exemplo:

Digamos que estamos tentando encaixar w0+w1x1+w2x2+w3x3+w4x4. Esta pergunta é sobre por que penalizamos por altos valores de da mesma maneira que penalizamos por altos valores de .w1w2

Se não sabemos nada sobre como nossos recursos foram construídos, faz sentido tratá-los da mesma maneira quando fazemos a regularização: um alto valor deve render tanto "penalidade" quanto alto valor .(x1,x2,x3,x4)w1w3

Mas digamos que temos informações adicionais: digamos que tínhamos apenas dois recursos originalmente: e . Uma linha estava se ajustando mal ao nosso conjunto de treinamento e queríamos um limite de decisão com uma forma mais irregular, então construímos e . Agora podemos ter modelos mais complexos, mas quanto mais complexos eles ficarem, mais correremos o risco de adaptar nosso modelo aos dados de treinamento. Portanto, queremos encontrar um equilíbrio entre minimizar a função de custo e minimizar a complexidade do modelo. Bem, os parâmetros que representam exponenciais mais elevados ( , ) estão aumentando drasticamente a complexidade do nosso modelo. Portanto, não devemos penalizar mais pela alta ,x1x2x3=x12x4=x23x3x4w3w4valores que penalizamos por altos valores ?w1,w2

Atte Juvonen
fonte
11
Isso ocorre porque não sabemos mais sobre um recurso gravado em outro recurso. Mas sim, existem algoritmos como AROW (regularização adaptativa de pesos) que, acredito, desempenham diferentes pesos de recursos.
Vladislavs Dovgalecs

Respostas:

4

Bem, os parâmetros que representam exponenciais mais altos (x3, x4) estão aumentando drasticamente a complexidade do nosso modelo. Portanto, não devemos penalizar mais pelos altos valores w3, w4 do que penalizar pelos altos valores w1, w2?

O motivo pelo qual dizemos que adicionar termos quadráticos ou cúbicos aumenta a complexidade do modelo é que ele leva a um modelo com mais parâmetros gerais. Não esperamos que um termo quadrático seja por si só mais complexo que um termo linear. A única coisa que fica clara é que, sendo todas as outras coisas iguais, um modelo com mais covariáveis ​​é mais complexo.

Para fins de regularização, geralmente se redimensiona todas as covariáveis ​​para ter igual média e variância, de modo que, a priori, elas sejam tratadas como igualmente importantes. Se algumas covariáveis ​​têm, de fato, uma relação mais forte com a variável dependente que outras, então, é claro, o procedimento de regularização não penalizará essas covariáveis ​​com tanta força, porque elas terão maiores contribuições para o ajuste do modelo.

Mas e se você realmente pensa, a priori, que uma covariável é mais importante que outra, e pode quantificar essa crença e deseja que o modelo o reflita? Então, o que você provavelmente quer fazer é usar um modelo bayesiano e ajustar os anteriores para que os coeficientes correspondam à sua crença pré-existente. Não por coincidência, alguns procedimentos familiares de regularização podem ser interpretados como casos especiais de modelos bayesianos. Em particular, a regressão de crista é equivalente a um anterior normal nos coeficientes, e a regressão de laço é equivalente a um anterior de Laplaciano.

Kodiologist
fonte
"Não esperamos que um termo quadrático seja por si só mais complexo que um termo linear". Isso vai contra a minha intuição. Você pode elaborar sobre isso?
Atte Juvonen
11
Que eu pudesse responder, um pouco gilbly: "Por que teria que ser mais complexa?" Mas, para oferecer alguma intuição, imagine que dois biólogos, Alice e Bob, estejam estudando algum líquen que por vezes cresce em quadrados. Alice representa o tamanho de cada remendo de líquen com comprimento lateral e Bob representa com área. Então, os números de Bob são os quadrados dos de Alice. Se cada biólogo construa um modelo de regressão com tamanho de patch de líquen como preditor, certamente você não diria que o modelo de Bob é mais complexo que o de Alice. Você também pode argumentar que o modelo de A é mais complexo, porque seus números são raízes quadradas.
Kodiologist
0

Ótimas observações. Para responder à sua pergunta "Devemos penalizar 'mais'?" Bem, ganhamos alguma coisa ao impor uma penalidade a priori em algumas variáveis?

Na prática, fazemos o oposto: lembramos de redimensionar as variáveis ​​de entrada para a mesma magnitude. Magnitudes diferentes atribuem uma "importância" a priori diferente a algumas das variáveis. Não sabemos quais são importantes e quais não. Há toda uma linha de pesquisa sobre como encontrar os 'recursos' certos ou o aprendizado de seleção / representação de recursos.

Então, aqui estão duas maneiras de pensar sobre isso.

Pode-se começar com uma hipótese de base linear simples e sem regularização. Então, tenha uma hipótese diferente do modelo, tomando interações quadráticas e outras do espaço de entrada. Certo. Em seguida, adicione regularização e assim por diante. Portanto, essa 'pesquisa' é simples ou complexa. Mais uma maneira paramétrica de fazer isso, pois você produz hipóteses sobre a base.

Ou, uma maneira 'não paramétrica' alternativa seria começar com uma hipótese realmente complexa e deixar a regularização fazer o trabalho (por exemplo, penalizar a complexidade e chegar a algo mais simples) via validação cruzada.

O ponto da regularização e dos não paramétricos é fazer as coisas automaticamente. Deixe a máquina fazer o trabalho.

Aqui está um bom recurso em funções básicas.

E finalmente, Lpespaços e normas esclarecerão ainda mais as coisas.

shuriken x blue
fonte