Comparando Distribuições de Desempenho de Generalização

10

Digamos que eu tenha dois métodos de aprendizado para um problema de classificação , e , e que estimo o desempenho da generalização com algo como validação cruzada repetida ou inicialização. A partir deste processo, recebo uma distribuição das pontuações P_A e P_B para cada método nessas repetições (por exemplo, a distribuição dos valores da ROC AUC para cada modelo).BAB P BPAPB

Observando essas distribuições, pode ser que μAμB mas que σAσB (ou seja, o desempenho esperado de generalização de A seja maior que B , mas que haja mais incerteza sobre essa estimativa).

Eu acho que isso é chamado de dilema de viés e variância na regressão.

Quais métodos matemáticos posso usar para comparar PA e PB e, eventualmente, tomar uma decisão informada sobre qual modelo usar?

Nota: Por uma questão de simplicidade, estou me referindo a dois métodos A e B aqui, mas estou interessado em métodos que podem ser usados ​​para comparar a distribuição de pontuações de ~ 1000 métodos de aprendizagem (por exemplo, de uma pesquisa em grade) e, eventualmente, fazer uma decisão final sobre qual modelo usar.

Amelio Vazquez-Reina
fonte
Penso que o termo tradeoff de desvio-desvio não se aplica aqui, porque você não está decompondo um erro quadrático médio em desvio e desvio, e não está falando sobre a variação de um estimador, mas sobre a variação de uma pontuação.
Lucas
Obrigado @Lucas. Estou tentando estimar a pontuação dos meus classificadores e em dados invisíveis . Para isso, achei que poderia obter a média das pontuações nos dados vistos como meus estimadores (ou seja, e para e respectivamente). A variação desses estimadores é diferente da variação das pontuações e ? B E ( P A ) E ( P B ) A B P A P BABE(PA)E(PB)ABPAPB
Amelio Vazquez-Reina
2
@ user815423426 Acho que a comparação depende da função de perda que você possui. Diebold e Mariano (2002) têm um bom artigo estudando sua pergunta. Eles propuseram alguns testes estatísticos comparando o desempenho da "generalização". Não sei como configurar um link nos comentários. O artigo é: Diebold, Francis X. e Robert S. Mariano. "Comparando a precisão preditiva." Journal of Business & Economic Statistics 20.1 (2002): 134-144.
Semibruin

Respostas:

2

Se houver apenas dois métodos, A e B, eu calcularia a probabilidade de que, para uma partição arbitrária de treinamento / teste, o erro (de acordo com alguma métrica de desempenho adequada) do modelo A fosse menor que o erro do modelo B. Se essa probabilidade foram maiores que 0,5, eu escolhi o modelo A e, caso contrário, o modelo B (cf. teste U de Mann-Whitney?) No entanto, suspeito fortemente que acabará escolhendo o modelo com a média mais baixa, a menos que as distribuições da estatística de desempenho sejam muito diferentes. -simétrico.

Por outro lado, para pesquisa em grade, a situação é um pouco diferente, pois você não está realmente comparando métodos diferentes, mas ajustando os (hiper) parâmetros do mesmo modelo para ajustar uma amostra finita de dados (neste caso indiretamente via cross -validação). Descobri que esse tipo de ajuste pode ser muito propenso a ajustes excessivos, veja meu artigo

Gavin C. Cawley, Nicola LC Talbot, "Sobre adaptação na seleção de modelos e viés de seleção subsequente na avaliação de desempenho", Journal of Machine Learning Research, 11 (julho): 2079-2107, 2010. ( www )

Eu tenho um artigo em revisão que mostra que provavelmente é melhor usar uma grade relativamente grossa para máquinas de kernel (por exemplo, SVMs) para evitar o excesso de ajuste no critério de seleção de modelo. Outra abordagem (que eu não investiguei, portanto, ressalte!) Seria escolher o modelo com o erro mais alto que não seja estatisticamente inferior ao melhor modelo encontrado na pesquisa em grade (embora possa ser uma abordagem bastante pessimista, especialmente para pequenos conjuntos de dados).

A solução real, porém, provavelmente não é otimizar os parâmetros usando a pesquisa em grade, mas sim calcular a média dos valores dos parâmetros, seja em uma abordagem bayesiana ou apenas como um método de conjunto. Se você não otimizar, é mais difícil ajustar demais!

Dikran Marsupial
fonte
Obrigado Dikran. Quando você diz que "average over the parameter values"eu acho que entendo como fazer isso através de um método de conjunto (por exemplo, construindo a saída do conjunto como a média das saídas do classificador), mas não tenho certeza de como fazer isso com uma abordagem bayesiana ao trabalhar com um modelo discriminativo. Entendo a teoria de uma abordagem totalmente bayesiana (ou seja, evite estimativas pontuais e marginalize os parâmetros para construir o posterior final), mas, assumindo que o meu anterior sobre os parâmetros seja uniforme, isso não seria equivalente à construção do conjunto de médias ?
Amelio Vazquez-Reina
11
Na abordagem bayesiana, os modelos seriam ponderados por sua probabilidade marginal (ou seja, evidência bayesiana) e por qualquer anterior colocado sobre os hiperparâmetros, portanto, seria um caso especial de calcular a média de um conjunto com um método específico para ponderar os modelos.
Dikran Marsupial