Minha pergunta está relacionada à regularização em regressão linear e regressão logística. Atualmente, estou fazendo a terceira semana do curso Machine Learning de Andrew Ng sobre Coursera. Entendo como o ajuste excessivo pode ser um problema comum e tenho alguma intuição de como a regularização pode reduzir o ajuste excessivo. Minha pergunta é: podemos melhorar nossos modelos regularizando diferentes parâmetros de maneiras diferentes?
Exemplo:
Digamos que estamos tentando encaixar . Esta pergunta é sobre por que penalizamos por altos valores de da mesma maneira que penalizamos por altos valores de .
Se não sabemos nada sobre como nossos recursos foram construídos, faz sentido tratá-los da mesma maneira quando fazemos a regularização: um alto valor deve render tanto "penalidade" quanto alto valor .
Mas digamos que temos informações adicionais: digamos que tínhamos apenas dois recursos originalmente: e . Uma linha estava se ajustando mal ao nosso conjunto de treinamento e queríamos um limite de decisão com uma forma mais irregular, então construímos e . Agora podemos ter modelos mais complexos, mas quanto mais complexos eles ficarem, mais correremos o risco de adaptar nosso modelo aos dados de treinamento. Portanto, queremos encontrar um equilíbrio entre minimizar a função de custo e minimizar a complexidade do modelo. Bem, os parâmetros que representam exponenciais mais elevados ( , ) estão aumentando drasticamente a complexidade do nosso modelo. Portanto, não devemos penalizar mais pela alta ,valores que penalizamos por altos valores ?
fonte
Respostas:
O motivo pelo qual dizemos que adicionar termos quadráticos ou cúbicos aumenta a complexidade do modelo é que ele leva a um modelo com mais parâmetros gerais. Não esperamos que um termo quadrático seja por si só mais complexo que um termo linear. A única coisa que fica clara é que, sendo todas as outras coisas iguais, um modelo com mais covariáveis é mais complexo.
Para fins de regularização, geralmente se redimensiona todas as covariáveis para ter igual média e variância, de modo que, a priori, elas sejam tratadas como igualmente importantes. Se algumas covariáveis têm, de fato, uma relação mais forte com a variável dependente que outras, então, é claro, o procedimento de regularização não penalizará essas covariáveis com tanta força, porque elas terão maiores contribuições para o ajuste do modelo.
Mas e se você realmente pensa, a priori, que uma covariável é mais importante que outra, e pode quantificar essa crença e deseja que o modelo o reflita? Então, o que você provavelmente quer fazer é usar um modelo bayesiano e ajustar os anteriores para que os coeficientes correspondam à sua crença pré-existente. Não por coincidência, alguns procedimentos familiares de regularização podem ser interpretados como casos especiais de modelos bayesianos. Em particular, a regressão de crista é equivalente a um anterior normal nos coeficientes, e a regressão de laço é equivalente a um anterior de Laplaciano.
fonte
Ótimas observações. Para responder à sua pergunta "Devemos penalizar 'mais'?" Bem, ganhamos alguma coisa ao impor uma penalidade a priori em algumas variáveis?
Na prática, fazemos o oposto: lembramos de redimensionar as variáveis de entrada para a mesma magnitude. Magnitudes diferentes atribuem uma "importância" a priori diferente a algumas das variáveis. Não sabemos quais são importantes e quais não. Há toda uma linha de pesquisa sobre como encontrar os 'recursos' certos ou o aprendizado de seleção / representação de recursos.
Então, aqui estão duas maneiras de pensar sobre isso.
Pode-se começar com uma hipótese de base linear simples e sem regularização. Então, tenha uma hipótese diferente do modelo, tomando interações quadráticas e outras do espaço de entrada. Certo. Em seguida, adicione regularização e assim por diante. Portanto, essa 'pesquisa' é simples ou complexa. Mais uma maneira paramétrica de fazer isso, pois você produz hipóteses sobre a base.
Ou, uma maneira 'não paramétrica' alternativa seria começar com uma hipótese realmente complexa e deixar a regularização fazer o trabalho (por exemplo, penalizar a complexidade e chegar a algo mais simples) via validação cruzada.
O ponto da regularização e dos não paramétricos é fazer as coisas automaticamente. Deixe a máquina fazer o trabalho.
Aqui está um bom recurso em funções básicas.
E finalmente,Lp espaços e normas esclarecerão ainda mais as coisas.
fonte