Uma pesquisa em grade SVM deve mostrar uma região de alta precisão com baixa precisão ao redor?

12

Eu tenho 12 conjuntos de treinamento positivo (células cancerígenas tratadas com drogas com cada um dos 12 mecanismos de ação diferentes). Para cada um desses conjuntos de treinamento positivo, gostaria de treinar uma máquina de vetores de suporte para distingui-la de um conjunto negativo de tamanho igual amostrado no experimento. Cada conjunto possui entre 1000 e 6000 células e existem 476 recursos (recursos de imagem) de cada célula, cada um dimensionado linearmente para [0, 1].

Eu uso o LIBSVM e o kernel Gaussian RGB. Usando validação cruzada quíntupla, fiz uma pesquisa em grade pelos log₂ C ∈ [-5, 15] e log₂ ɣ ∈ [-15, 3]. Os resultados são os seguintes:

Resultados da pesquisa em grade

Fiquei desapontado por não haver um único conjunto de parâmetros que fornece alta precisão para todos os 12 problemas de classificação. Também fiquei surpreso que as grades geralmente não mostrem uma região de alta precisão cercada por menores precisões. Isso significa apenas que eu preciso expandir o espaço dos parâmetros de pesquisa ou a pesquisa na grade é uma indicação de que algo está errado?

Vebjorn Ljosa
fonte
2
Re decepção: Você não esperaria que cada problema de ter os mesmos parâmetros, então por que você espera que os problemas para valores bons ação para os hiperparâmetros (gamma log e C)?
conjugateprior
@Conjugate Prior: Os conjuntos de treinamento são subconjuntos do mesmo experimento e os conjuntos de treinamento negativos são amostrados da mesma população, então eu esperava que a mesma largura do kernel RBF fosse eficaz. Como os conjuntos positivos estão sendo discriminados da mesma população de fundo (negativa), eu esperava que a penalidade ideal C também fosse semelhante. Se não for esse o caso, torna o SVM realmente difícil de aplicar. O aumento suave, por exemplo, parece muito mais fácil de ajustar.
Vebjorn Ljosa
Aha. Mas parece-me que, embora seja o mesmo experimento no sentido físico, você está, no entanto, atacando problemas separados e diferentes no sentido estatístico. Especialmente se os casos negativos forem reamostrados para cada tratamento.
conjugateprior
1
BTW, a pesquisa em grade é bastante ineficiente, o algoritmo de otimização simplex Nelder-Mead é muito eficaz, assim como os métodos de otimização de descida em gradiente. A pesquisa em grade é simples, mas um pouco de "força bruta".
Dikran Marsupial
@Vebjorn Ljosa (um ano depois), quanto os 5 valores se dispersam, digamos na final (C, gama)? As 12 parcelas são todas iguais, por exemplo, 50% .. 100% de previsão correta? Graças
denis

Respostas:

9

Os valores ideais para os hiperparâmetros serão diferentes para diferentes tarefas de aprendizado. Você precisará ajustá-las separadamente para cada problema.

A razão pela qual você não obtém um único ótimo é porque o parâmetro do kernel e o parâmetro de regularização controlam a complexidade do modelo. Se C for pequeno, você obtém um modelo suave, da mesma forma que o kernel é amplo, você obterá um modelo suave (como as funções básicas não são muito locais). Isso significa que diferentes combinações de C e a largura do kernel levam a modelos igualmente complexos, com desempenho semelhante (é por isso que você obtém o recurso diagonal em muitos dos gráficos que você possui).

O ótimo também depende da amostragem específica do conjunto de treinamento. É possível ajustar demais o erro de validação cruzada, portanto, escolher os hiper parâmetros pela validação cruzada pode realmente piorar o desempenho se você tiver azar. Veja Cawley e Talbot para uma discussão sobre isso.

O fato de existir um amplo platô de valores para os hiperparâmetros nos quais você obtém valores igualmente bons é na verdade uma boa característica das máquinas de vetores de suporte, pois sugere que elas não são excessivamente vulneráveis ​​ao ajuste excessivo na seleção de modelos. Se você tivesse um pico nítido nos valores ideais, isso seria uma coisa ruim, pois seria difícil encontrar o pico usando um conjunto de dados finito que forneceria uma indicação não confiável de onde esse pico realmente reside.

Dikran Marsupial
fonte
BTW Estou realizando um estudo sobre ajuste excessivo na seleção de modelos usando a pesquisa em grade, que acaba sendo muito mais interessante do que eu pensava. Mesmo com poucos hiperparâmetros, você ainda pode ajustar demais o critério de seleção de modelo se otimizar sobre uma grade que seja muito bom!
Dikran Marsupial
Estou ficando para o final do trabalho de simulação agora, espero que eu vou ser capaz de submeter o trabalho em um mês ou dois ...
Dikran Marsupial
Eu estaria interessado em ler esse artigo, se estiver terminado? Eu encontrei alguns picos estranhos, etc, em otimizações de pesquisa de grade que parecem semelhantes ao que você discute aqui.
precisa saber é o seguinte
Todo o trabalho de simulação está concluído, estou apenas juntando o papel no momento (principalmente assegurando que ele seja totalmente reproduzível). Eu salvei todas as grades para que seja possível fazer uma nova análise de outras questões em que eu não pensava na época.
Dikran Marsupial