Devemos considerar o termo de interceptação ao fazer o kernel de algoritmos?

7

Quando um algoritmo de aprendizagem (por exemplo, classificação, regressão, clustering ou redução de dimensão) usa apenas o produto escalar entre pontos de dados , podemos usar implicitamente um mapeamento dimensional mais alto através do truque do kernel, troca de todos os casos em que o produto escalar ocorre pelo kernel .xxTϕ(x)K=ϕ(x)ϕ(x)T

Em modelos lineares, SVMs, por exemplo, é possível contabilizar uma interceptação na adição de uma coluna constante aos pontos de dados. Se usarmos o kernel linear , faz muito sentido manter essa coluna constante: você pode recuperar os coeficientes da coluna partir dos coeficientes do produto do kernel through e as soluções devem ser idênticas, usando o kernel ou não.K=xxTwuw=xTu

Mas e se o kernel não for linear, e se o mapeamento em dimensão infinita for impossível representar os coeficientes da coluna com , ainda faz sentido incluir um interceptar termo?w=ϕ(x)Tu

Firebug
fonte
2
Se o kernel é estacionário, a interceptação não faz diferença por definição.
Sycorax diz Restabelecer Monica

Respostas:

3

Resposta parcial:

Focando nos SVMs por um tempo, cheguei a essa referência (apontada por @DikranMarsupial no termo Bias na máquina de vetores de suporte ):

Poggio, T., Mukherjee, S., Rifkin, R. e Rakhlin, A. (2001). Verri, A. b . Em Anais da Conferência sobre Incerteza em Computações Geométricas .

Excerto:

Este artigo é dedicado a responder às seguintes perguntas: Quando b deve ser usado? Existe uma opção de usar ou não usar b ? O que a escolha significa? As respostas são diferentes para RNs (redes de regularização) e SVMs? [...]

Em sua conclusão, eles mencionam que o uso de um termo de viés está relacionado a não privilegiar determinados valores para limites de classificação em SVMs. Além disso:

  • Para núcleos definidos condicionalmente positivos infinitos, o termo b é de fato necessário, permitindo uma interpretação natural do otimizador.

  • Para núcleos definidos positivos, a escolha natural é sem o termo b , no entanto, é possível usar um, levando a uma outra interpretação do kernel diferente daquela sem ele.

Veja que o minimizador é gravado incluindo um parâmetro explícito b a ser otimizado.

Firebug
fonte