Uso do parâmetro Gamma com máquinas de vetores de suporte

9

Ao usar libsvm, o parâmetro é um parâmetro para a função do kernel. Seu valor padrão é configurado como $\gamma$

γ = \frac{1}{number of features.}

$\gamma = \frac{1}{\text{number of features.}}$

Existe alguma orientação teórica para configurar esse parâmetro além dos métodos existentes, por exemplo, pesquisa em grade?

machine-learning svm data-mining libsvm kernel-trick user3269
fonte

8

Eu sugeriria a seguinte orientação teórica. Quando você estiver usando o kernel Gaussian RBF, sua superfície de separação será baseada em uma combinação de superfícies em forma de sino centralizadas em cada vetor de suporte. A largura de cada superfície em forma de sino será inversamente proporcional a . Se essa largura for menor que a distância mínima em pares para seus dados, você basicamente terá um ajuste excessivo. Se essa largura for maior que a distância máxima em pares para seus dados, todos os seus pontos se enquadram em uma classe e você também não tem bom desempenho. Portanto, a largura ideal deve estar em algum lugar entre esses dois extremos. $\gamma$

Leo
fonte

pair-wise distance for your data= distância euclidiana simples após o dimensionamento?

precisa saber é

5

Não, é essencialmente dependente de dados. A pesquisa em grade (hiperparâmetros transformados em log) é um método muito bom se você tiver apenas um pequeno número de hiperparâmetros para ajustar, mas não faça a resolução da grade muito fina ou é provável que ajuste demais a sintonia critério. Para problemas com um número maior de parâmetros do kernel, acho que o método simplex Nelder-Mead funciona bem.

Dikran Marsupial
fonte

Dikran, obrigado pela resposta. Você pode elaborar mais sobre o "dependente de dados"? Qual é a relação entre re e um conjunto de dados? Ou, em outras palavras, dado um conjunto de dados, existe uma maneira de definir r com base nesses dados?

user3269

11

Essencialmente "dependente de dados" significa apenas que as melhores configurações variam de acordo com a estrutura específica dos dados e geralmente não há maneira melhor de defini-las do que minimizar o erro de validação cruzada. Os métodos do kernel poderiam realmente ter uma análise mais teórica de como aprender o kernel, mas infelizmente isso é matematicamente muito difícil.

Dikran Marsupial

Uso do parâmetro Gamma com máquinas de vetores de suporte

Respostas: