Digamos que eu tenha dois métodos de aprendizado para um problema de classificação , e , e que estimo o desempenho da generalização com algo como validação cruzada repetida ou inicialização. A partir deste processo, recebo uma distribuição das pontuações P_A e P_B para cada método nessas repetições (por exemplo, a distribuição dos valores da ROC AUC para cada modelo).B P B
Observando essas distribuições, pode ser que mas que (ou seja, o desempenho esperado de generalização de seja maior que , mas que haja mais incerteza sobre essa estimativa).
Eu acho que isso é chamado de dilema de viés e variância na regressão.
Quais métodos matemáticos posso usar para comparar e e, eventualmente, tomar uma decisão informada sobre qual modelo usar?
Nota: Por uma questão de simplicidade, estou me referindo a dois métodos e aqui, mas estou interessado em métodos que podem ser usados para comparar a distribuição de pontuações de ~ 1000 métodos de aprendizagem (por exemplo, de uma pesquisa em grade) e, eventualmente, fazer uma decisão final sobre qual modelo usar.
fonte
Respostas:
Se houver apenas dois métodos, A e B, eu calcularia a probabilidade de que, para uma partição arbitrária de treinamento / teste, o erro (de acordo com alguma métrica de desempenho adequada) do modelo A fosse menor que o erro do modelo B. Se essa probabilidade foram maiores que 0,5, eu escolhi o modelo A e, caso contrário, o modelo B (cf. teste U de Mann-Whitney?) No entanto, suspeito fortemente que acabará escolhendo o modelo com a média mais baixa, a menos que as distribuições da estatística de desempenho sejam muito diferentes. -simétrico.
Por outro lado, para pesquisa em grade, a situação é um pouco diferente, pois você não está realmente comparando métodos diferentes, mas ajustando os (hiper) parâmetros do mesmo modelo para ajustar uma amostra finita de dados (neste caso indiretamente via cross -validação). Descobri que esse tipo de ajuste pode ser muito propenso a ajustes excessivos, veja meu artigo
Gavin C. Cawley, Nicola LC Talbot, "Sobre adaptação na seleção de modelos e viés de seleção subsequente na avaliação de desempenho", Journal of Machine Learning Research, 11 (julho): 2079-2107, 2010. ( www )
Eu tenho um artigo em revisão que mostra que provavelmente é melhor usar uma grade relativamente grossa para máquinas de kernel (por exemplo, SVMs) para evitar o excesso de ajuste no critério de seleção de modelo. Outra abordagem (que eu não investiguei, portanto, ressalte!) Seria escolher o modelo com o erro mais alto que não seja estatisticamente inferior ao melhor modelo encontrado na pesquisa em grade (embora possa ser uma abordagem bastante pessimista, especialmente para pequenos conjuntos de dados).
A solução real, porém, provavelmente não é otimizar os parâmetros usando a pesquisa em grade, mas sim calcular a média dos valores dos parâmetros, seja em uma abordagem bayesiana ou apenas como um método de conjunto. Se você não otimizar, é mais difícil ajustar demais!
fonte
"average over the parameter values"
eu acho que entendo como fazer isso através de um método de conjunto (por exemplo, construindo a saída do conjunto como a média das saídas do classificador), mas não tenho certeza de como fazer isso com uma abordagem bayesiana ao trabalhar com um modelo discriminativo. Entendo a teoria de uma abordagem totalmente bayesiana (ou seja, evite estimativas pontuais e marginalize os parâmetros para construir o posterior final), mas, assumindo que o meu anterior sobre os parâmetros seja uniforme, isso não seria equivalente à construção do conjunto de médias ?