Quando um algoritmo de aprendizagem (por exemplo, classificação, regressão, clustering ou redução de dimensão) usa apenas o produto escalar entre pontos de dados , podemos usar implicitamente um mapeamento dimensional mais alto através do truque do kernel, troca de todos os casos em que o produto escalar ocorre pelo kernel .
Em modelos lineares, SVMs, por exemplo, é possível contabilizar uma interceptação na adição de uma coluna constante aos pontos de dados. Se usarmos o kernel linear , faz muito sentido manter essa coluna constante: você pode recuperar os coeficientes da coluna partir dos coeficientes do produto do kernel through e as soluções devem ser idênticas, usando o kernel ou não.
Mas e se o kernel não for linear, e se o mapeamento em dimensão infinita for impossível representar os coeficientes da coluna com , ainda faz sentido incluir um interceptar termo?
Respostas:
Resposta parcial:
Focando nos SVMs por um tempo, cheguei a essa referência (apontada por @DikranMarsupial no termo Bias na máquina de vetores de suporte ):
Excerto:
Em sua conclusão, eles mencionam que o uso de um termo de viés está relacionado a não privilegiar determinados valores para limites de classificação em SVMs. Além disso:
Para núcleos definidos condicionalmente positivos infinitos, o termo b é de fato necessário, permitindo uma interpretação natural do otimizador.
Para núcleos definidos positivos, a escolha natural é sem o termo b , no entanto, é possível usar um, levando a uma outra interpretação do kernel diferente daquela sem ele.
Veja que o minimizador é gravado incluindo um parâmetro explícito b a ser otimizado.
fonte