Qual é o método de amostragem mais apropriado para avaliar o desempenho de um classificador em um conjunto de dados específico e compará-lo com outros classificadores? A validação cruzada parece ser uma prática padrão, mas li que métodos como o .632 bootstrap são uma opção melhor.
Como acompanhamento: A escolha da métrica de desempenho afeta a resposta (se eu usar AUC em vez de precisão)?
Meu objetivo final é poder dizer com alguma confiança que um método de aprendizado de máquina é superior a outro para um conjunto de dados específico.
Respostas:
Uma diferença importante da maneira usual de validação cruzada e métodos fora do bootstrap são aplicados é que a maioria das pessoas aplica a validação cruzada apenas uma vez (ou seja, cada caso é testado exatamente uma vez), enquanto a validação fora do bootstrap é realizada com um grande número de repetições / iterações. Nessa situação, a validação cruzada está sujeita a uma variação maior devido à instabilidade do modelo. No entanto, isso pode ser evitado usando, por exemplo, validação cruzada repetida / repetida . Se isso for feito, pelo menos para os conjuntos de dados espectroscópicos com os quais estou trabalhando, o erro total de ambos os esquemas de reamostragem parece ser o mesmo na prática.k
A validação cruzada de deixar um fora é desencorajada, pois não há possibilidade de reduzir a variação do tipo instabilidade do modelo e existem alguns classificadores e problemas nos quais ele exibe um grande viés pessimista.
O bootstrap .632 faz um trabalho razoável, desde que o erro de reamostragem misturado não seja muito otimista. (Por exemplo, para os dados com os quais trabalho, matrizes muito amplas com muitas variáveis, isso não funciona muito bem, pois os modelos são propensos a sobreajuste grave). Isso significa também que eu evitaria usar a inicialização .632 para comparar modelos de complexidade variável. Com o .632+ bootstrap, não tenho experiência: se o overfitting acontecer e for detectado corretamente, será igual à estimativa original do bootstrap, por isso continuo com validação cruzada simples ou repetida / repetida para meus dados.
Literatura:
(um clássico )
Dougherty e Braga-Neto têm várias publicações sobre o tema , por exemplo
Dougherty, ER et al. : Desempenho de estimadores de erro para classificação Bioinformática Atual, 2010, 5, 53-67
Beleites, C. et al. : Redução da variação na estimativa do erro de classificação usando conjuntos de dados esparsos Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Temos uma comparação de validação cruzada apenas uma vez ou iteração / repetição, e comparamos com o out-of-bootstrap e .632 bootstrap também para dados particularmente amplos com múltiplas colinearidades.
Escolha da métrica:
A precisão (da qual @FrankHarrell dirá que é uma má escolha, pois não é uma regra de pontuação adequada ) está sujeita a alta variação, pois considera cada caso como completamente correto ou completamente incorreto, mesmo se o classificador previsse, por exemplo, apenas 60 % de probabilidade posterior para o caso de teste pertencer à classe em questão. Uma regra de pontuação adequada é, por exemplo, a pontuação de Brier, que está intimamente relacionada ao erro quadrático médio na regressão.
O erro quadrático médio analoga está disponível para proporções como precisão, sensibilidade, especificidade, valores preditivos: Beleites, C. et al. : Validação de modelos de classificação suave usando associações parciais de classe: Um conceito estendido de sensibilidade & Co. aplicado à classificação de tecidos de astrocitoma, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (página de resumo que também fornece link para pré-impressão)
Use um teste emparelhado para avaliar isso. Para comparar proporções, dê uma olhada no teste de McNemar.
A resposta para isso será afetada pela escolha da métrica. Como as medidas de erro do tipo regressão não têm a etapa de "endurecimento" de cortar decisões com um limite, elas geralmente têm menos variação do que suas contrapartes de classificação. Métricas como precisão, que são basicamente proporções, precisarão de um grande número de casos de teste para estabelecer a superioridade de um classificador em relação a outro.
Fleiss: "Métodos estatísticos para taxas e proporções" fornece exemplos (e tabelas) para comparação não proporcional de proporções. Para lhe dar uma impressão do que quero dizer com "tamanhos enormes de amostras", dê uma olhada na imagem na minha resposta a essa outra pergunta . Testes pareados como o de McNemar precisam de menos casos de teste, mas o IIRC ainda está no melhor dos casos metade (?) Do tamanho da amostra necessário para o teste não emparelhado.
Para caracterizar o desempenho de um classificador (reforçado), você geralmente precisa de uma curva de trabalho de pelo menos dois valores, como o ROC (sensibilidade versus especificidade) ou algo semelhante.
Raramente uso precisão total ou AUC, pois meus aplicativos geralmente têm restrições, por exemplo, que a sensibilidade é mais importante que a especificidade ou que certos limites dessas medidas devem ser atendidos. Se você optar pelas características de soma de "número único", verifique se o ponto de trabalho dos modelos que você está vendo está realmente em uma faixa sensata.
Para precisão e outras medidas de desempenho que resumem o desempenho de várias classes de acordo com os rótulos de referência, leve em consideração a frequência relativa das classes que você encontrará no aplicativo - o que não é necessariamente o mesmo que no seu dados de treinamento ou teste.
Provost, F. et al. : O Caso Contra Estimativa de Precisão para Comparação de Algoritmos de Indução em Procedimentos da Décima Quinta Conferência Internacional sobre Aprendizado de Máquina, 1998
editar: comparando vários classificadores
Estou pensando nesse problema há algum tempo, mas ainda não cheguei a uma solução (nem conheci ninguém que tivesse uma solução).
Aqui está o que eu tenho até agora:
O problema é que você se depara rapidamente com uma situação de comparação múltipla maciça.
No entanto, você pode dizer que, para os aplicativos que tenho em mãos, comparações múltiplas não estão realmente piorando as coisas, porque raramente tenho casos de teste suficientes para permitir uma única comparação ...
Acho que o ajuste dos hiperparâmetros do modelo é uma versão especializada do problema geral de comparação de modelos, que pode ser mais fácil de resolver no começo. No entanto, existem rumores de que a qualidade dos modelos depende muito da experiência de quem os constrói, possivelmente até mais do que na escolha do tipo de modelo
No momento, decidi que "a otimização é a raiz de todo mal" e, em vez disso, adote uma abordagem muito diferente:
decido o máximo possível com conhecimento especializado sobre o problema em questão. Isso na verdade permite restringir bastante as coisas, para que eu possa evitar a comparação de modelos. Quando tenho que comparar modelos, tento ser muito aberto e claro, lembrando as pessoas sobre a incerteza da estimativa de desempenho e que a comparação de modelos particularmente múltiplos é AFAIK ainda é um problema não resolvido.
Edição 2: testes emparelhados
fonte
Você precisa de modificações no bootstrap (.632, .632+) apenas porque a pesquisa original usou uma regra de pontuação inadequada e descontínua (proporção classificada corretamente). Para outras pontuações de precisão, o bootstrap de otimismo comum tende a funcionar bem. Para mais informações, consulte http://biostat.mc.vanderbilt.edu/RmS#Studies_of_Methods_Used_in_the_T
Regras de pontuação inadequadas enganam você sobre a escolha dos recursos e seus pesos. Em outras palavras, tudo o que pode dar errado vai dar errado.
fonte
De 'Modelagem Preditiva Aplicada., Khun. Johnson . p.78
"Nenhum método de reamostragem é uniformemente melhor que outro; a escolha deve ser feita considerando vários fatores. Se o tamanho da amostra for pequeno, recomendamos o uso de validação cruzada repetida em 10 vezes por várias razões; as propriedades de viés e variância são boas e dadas as o tamanho da amostra, os custos computacionais não são grandes.Se o objetivo é escolher entre os modelos, em vez de obter o melhor indicador de desempenho, pode-se argumentar bastante com o uso de um dos procedimentos de autoinicialização, pois estes apresentam uma variação muito baixa. Para amostras grandes, as diferenças entre os métodos de reamostragem tornam-se menos pronunciadas e a eficiência computacional aumenta o desempenho ". p. 78
Além disso, dada a escolha de dois resultados semelhantes, o modelo mais interpretável é geralmente preferido. Como exemplo (do mesmo texto), usando um CV de 10 vezes, um classificador SVM tinha uma estimativa de precisão de 75%, com resultados de nova amostra entre 66 e 82%. Os mesmos parâmetros foram utilizados em um classificador de regressão logística com precisão de 74,9% e a mesma faixa de reamostragem. O modelo de regressão logística mais simples pode ser preferido, pois é mais fácil interpretar os resultados.
fonte