Conduzindo um modelo de regressão linear usando uma função de perda, por que devo usar vez da regularização ?
É melhor prevenir o sobreajuste? É determinístico (sempre uma solução única)? É melhor na seleção de recursos (porque produz modelos escassos)? Dispersa os pesos entre os recursos?
linear-regression
regularization
astudentofmaths
fonte
fonte
Respostas:
Basicamente, adicionamos um termo de regularização para impedir que os coeficientes se ajustem tão perfeitamente ao excesso de ajuste.
A diferença entre L1 e L2 é L1 é a soma dos pesos e L2 é apenas a soma do quadrado dos pesos.
L1 não pode ser usado em abordagens baseadas em gradiente, pois não é diferenciável ao contrário de L2
L1 ajuda a executar a seleção de recursos em espaços esparsos. A seleção de características é saber quais recursos são úteis e quais são redundantes.
A diferença entre suas propriedades pode ser resumida como:
fonte
L2 tem uma vantagem muito importante para L1, que é a invariância à rotação e escala.
Isso é especialmente importante na aplicação geográfica / física.
Digamos que seu técnico instalou acidentalmente seu sensor em anjo de 45 graus, L1 seria afetado, enquanto L2 (distância euclidiana) permaneceria o mesmo.
fonte