Qual é a diferença entre fazer regressão linear com uma função de base radial gaussiana (RBF) e fazer regressão linear com um núcleo gaussiano?
regression
normal-distribution
kernel-trick
user35965
fonte
fonte
Respostas:
A única diferença real está na regularização aplicada. Uma rede RBF regularizada normalmente usa uma penalidade com base na norma quadrática dos pesos. Para a versão do kernel, a penalidade normalmente está na norma quadrática dos pesos do modelo linear, implicitamente construído no espaço de recurso induzido pelo kernel. A principal diferença prática que isso faz é que a penalidade para a rede RBF depende dos centros da rede RBF (e, portanto, da amostra de dados usada), enquanto que para o kernel RBF, o espaço de recurso induzido é o mesmo, independentemente da amostra de dados, portanto, a penalidade é uma penalidade na função do modelo, e não na sua parametrização .
Em outras palavras, para ambos os modelos, temos
Para a abordagem de rede RBF, o critério de treinamento é
Para o método de kernel RBF, temos que , e → w = Σ l de i = 1 α i φ ( → x i ) . Isso significa que uma penalidade de norma quadrática nos pesos do modelo no espaço de recurso induzido, → w pode ser escrita em termos dos parâmetros duplos, → α comoK(x⃗ ,x⃗ ′)=ϕ(x⃗ )⋅ϕ(x⃗ ′) w⃗ =∑ℓi=1αiϕ(x⃗ i) w⃗ α⃗
onde é a matriz de avaliações em pares do kernel para todos os padrões de treinamento. O critério de treinamento é entãoK
.L=∑ℓi=1(yi−f(x⃗ i))2+λα⃗ TKα⃗
A única diferença entre os dois modelos é o no termo de regularização.K
A principal vantagem teórica da abordagem do kernel é que ela permite interpretar um modelo não linear como um modelo linear após uma transformação não linear fixa que não depende da amostra de dados. Assim, qualquer teoria estatística de aprendizagem existente para modelos lineares é transferida automaticamente para a versão não linear. No entanto, tudo isso quebra assim que você tenta ajustar os parâmetros do kernel; nesse ponto, voltamos ao mesmo ponto teoricamente falando que estávamos com as redes neurais RBF (e MLP). Portanto, a vantagem teórica talvez não seja tão grande quanto gostaríamos.
É provável que faça alguma diferença real em termos de desempenho? Provavelmente não muito. Os teoremas do "sem almoço grátis" sugerem que não há superioridade a priori de nenhum algoritmo sobre todos os outros, e a diferença na regularização é bastante sutil, portanto, se houver dúvida, tente os dois e escolha o melhor de acordo com, por exemplo, a validação cruzada.
fonte