Uma abordagem típica para resolver um problema de classificação é identificar uma classe de modelos candidatos e, em seguida, executar a seleção de modelos usando algum procedimento, como validação cruzada. Normalmente, seleciona-se o modelo com a maior precisão, ou alguma função relacionada que codifica informações específicas do problema, como .
Assumindo que o objetivo final é produzir um classificador preciso (onde a definição de precisão é novamente dependente do problema), em que situações é melhor executar a seleção do modelo usando uma regra de pontuação adequada, em oposição a algo impróprio, como precisão, precisão, recall etc? Além disso, vamos ignorar questões de complexidade do modelo e assumir a priori que consideramos todos os modelos igualmente prováveis.
Anteriormente, eu nunca teria dito. Sabemos, em um sentido formal, a classificação é um problema mais fácil que a regressão [1], [2] e podemos derivar limites mais estreitos para o primeiro do que para o posterior ( ). Além disso, há casos em que a tentativa de corresponder com precisão as probabilidades pode resultar em limites de decisão incorretos ou sobreajuste . No entanto, com base na conversa aqui e no padrão de votação da comunidade em relação a essas questões, venho questionando essa visão.
- Devroye, Luc. Uma teoria probabilística do reconhecimento de padrões. Vol. 31. springer, 1996., Seção 6.7
- Kearns, Michael J. e Robert E. Schapire. Aprendizagem eficiente e livre de distribuição de conceitos probabilísticos. Foundations of Computer Science, 1990. Proceedings., 31º Simpósio Anual em. IEEE, 1990.
Esta afirmação pode ser um pouco superficial. Quero dizer especificamente que, dados dados rotulados no formato S = { ( x 1 , y 1 ) , … , ( x n , y n ) } com x i ∈ X e y i ∈ { 1 , … , K } , parece ser mais fácil estimar um limite de decisão do que estimar com precisão probabilidades condicionais.