Eu tenho 12 conjuntos de treinamento positivo (células cancerígenas tratadas com drogas com cada um dos 12 mecanismos de ação diferentes). Para cada um desses conjuntos de treinamento positivo, gostaria de treinar uma máquina de vetores de suporte para distingui-la de um conjunto negativo de tamanho igual amostrado no experimento. Cada conjunto possui entre 1000 e 6000 células e existem 476 recursos (recursos de imagem) de cada célula, cada um dimensionado linearmente para [0, 1].
Eu uso o LIBSVM e o kernel Gaussian RGB. Usando validação cruzada quíntupla, fiz uma pesquisa em grade pelos log₂ C ∈ [-5, 15] e log₂ ɣ ∈ [-15, 3]. Os resultados são os seguintes:
Fiquei desapontado por não haver um único conjunto de parâmetros que fornece alta precisão para todos os 12 problemas de classificação. Também fiquei surpreso que as grades geralmente não mostrem uma região de alta precisão cercada por menores precisões. Isso significa apenas que eu preciso expandir o espaço dos parâmetros de pesquisa ou a pesquisa na grade é uma indicação de que algo está errado?
Respostas:
Os valores ideais para os hiperparâmetros serão diferentes para diferentes tarefas de aprendizado. Você precisará ajustá-las separadamente para cada problema.
A razão pela qual você não obtém um único ótimo é porque o parâmetro do kernel e o parâmetro de regularização controlam a complexidade do modelo. Se C for pequeno, você obtém um modelo suave, da mesma forma que o kernel é amplo, você obterá um modelo suave (como as funções básicas não são muito locais). Isso significa que diferentes combinações de C e a largura do kernel levam a modelos igualmente complexos, com desempenho semelhante (é por isso que você obtém o recurso diagonal em muitos dos gráficos que você possui).
O ótimo também depende da amostragem específica do conjunto de treinamento. É possível ajustar demais o erro de validação cruzada, portanto, escolher os hiper parâmetros pela validação cruzada pode realmente piorar o desempenho se você tiver azar. Veja Cawley e Talbot para uma discussão sobre isso.
O fato de existir um amplo platô de valores para os hiperparâmetros nos quais você obtém valores igualmente bons é na verdade uma boa característica das máquinas de vetores de suporte, pois sugere que elas não são excessivamente vulneráveis ao ajuste excessivo na seleção de modelos. Se você tivesse um pico nítido nos valores ideais, isso seria uma coisa ruim, pois seria difícil encontrar o pico usando um conjunto de dados finito que forneceria uma indicação não confiável de onde esse pico realmente reside.
fonte