Intuição para o parâmetro de regularização no SVM

11

Como a variação do parâmetro de regularização em um SVM altera o limite de decisão para um conjunto de dados não separável? Uma resposta visual e / ou algum comentário sobre os comportamentos limitantes (para regularizações grandes e pequenas) seria muito útil.

ASX
fonte

Respostas:

17

O parâmetro de regularização (lambda) serve como um grau de importância que é dado às classificações erradas. O SVM apresenta um problema de otimização quadrática que procura maximizar a margem entre as duas classes e minimizar a quantidade de classificações incorretas. No entanto, para problemas não separáveis, para encontrar uma solução, a restrição de classificação incorreta deve ser relaxada, e isso é feito definindo a "regularização" mencionada.

Portanto, intuitivamente, à medida que o lambda cresce, menos os exemplos classificados incorretamente são permitidos (ou o preço mais alto pago na função de perda). Então, quando lambda tende a infinito, a solução tende para a margem rígida (não permita nenhuma classificação incorreta). Quando lambda tende a 0 (sem ser 0), mais as classificações erradas são permitidas.

Definitivamente, existe uma troca entre essas duas lambdas normalmente menores, mas não muito pequenas, generalizadas bem. Abaixo estão três exemplos de classificação SVM linear (binária).

Lambda SVM linear = 0,1 SVM linear Lambda = 1 insira a descrição da imagem aqui

Para SVM de kernel não linear, a idéia é semelhante. Dado isso, para valores mais altos de lambda, há uma maior possibilidade de sobreajuste, enquanto que para valores mais baixos de lambda, há maiores possibilidades de sobreajuste.

As imagens abaixo mostram o comportamento do RBF Kernel, deixando o parâmetro sigma fixo em 1 e tentando lambda = 0,01 e lambda = 10

RBF Kernel SVM lambda = 0,01 RBF Kernel SVM lambda = 10

Você pode dizer que a primeira figura em que o lambda é mais baixo é mais "relaxada" do que a segunda figura em que os dados devem ser ajustados com mais precisão.

(Slides do Prof. Oriol Pujol. Universitat de Barcelona)

Javierfdr
fonte
Belas fotos! Você mesmo os criou? Se sim, talvez você possa compartilhar o código para desenhá-los?
Alexey Grigorev
bons gráficos. em relação aos dois últimos => do texto, alguém pensaria implicitamente que a primeira imagem é com lambda = 0,01, mas, pelo que entendi (e para ser consistente com o gráfico no início), essa é a com lambda = 10. porque é claramente aquele com menos regularização (mais adaptável, mais relaxado).
Wim 'titte' Thiels
^ este é o meu entendimento também. A parte superior dos dois gráficos de cores mostra claramente mais contornos para a forma dos dados, portanto esse deve ser o gráfico em que a margem da equação SVM foi favorecida com lambda mais alto. A parte inferior dos dois gráficos de cores mostra uma classificação mais relaxada dos dados (pequeno agrupamento de azul na área laranja), o que significa que a maximização da margem não foi favorecida em vez de minimizar a quantidade de erros na classificação.
Brian Ambielli