Quando é uma regra de pontuação adequada uma melhor estimativa de generalização em uma configuração de classificação?

Uma abordagem típica para resolver um problema de classificação é identificar uma classe de modelos candidatos e, em seguida, executar a seleção de modelos usando algum procedimento, como validação cruzada. Normalmente, seleciona-se o modelo com a maior precisão, ou alguma função relacionada que codifica informações específicas do problema, como $\text{F}_\beta$ .

Assumindo que o objetivo final é produzir um classificador preciso (onde a definição de precisão é novamente dependente do problema), em que situações é melhor executar a seleção do modelo usando uma regra de pontuação adequada, em oposição a algo impróprio, como precisão, precisão, recall etc? Além disso, vamos ignorar questões de complexidade do modelo e assumir a priori que consideramos todos os modelos igualmente prováveis.

Anteriormente, eu nunca teria dito. Sabemos, em um sentido formal, a classificação é um problema mais fácil que a regressão [1], [2] e podemos derivar limites mais estreitos para o primeiro do que para o posterior ( ). Além disso, há casos em que a tentativa de corresponder com precisão as probabilidades pode resultar em limites de decisão incorretos ou sobreajuste . No entanto, com base na conversa aqui e no padrão de votação da comunidade em relação a essas questões, venho questionando essa visão. $*$

Devroye, Luc. Uma teoria probabilística do reconhecimento de padrões. Vol. 31. springer, 1996., Seção 6.7
Kearns, Michael J. e Robert E. Schapire. Aprendizagem eficiente e livre de distribuição de conceitos probabilísticos. Foundations of Computer Science, 1990. Proceedings., 31º Simpósio Anual em. IEEE, 1990.

Esta afirmação pode ser um pouco superficial. Quero dizer especificamente que, dados dados rotulados no formato com e , parece ser mais fácil estimar um limite de decisão do que estimar com precisão probabilidades condicionais. $(*)$ $S = \{(x_1, y_1), \ldots, (x_n, y_n)\}$ $x_i \in \mathcal{X}$ $y_i \in \{1, \ldots, K\}$

machine-learning model-selection error scoring-rules alto
fonte

Respostas:

Pense nisso como uma comparação entre o teste / Wilcoxon e o teste mediano de Mood. O teste da mediana utiliza a classificação ideal (acima ou abaixo da mediana para uma variável contínua), de forma que apenas perde $t$ da informação na amostra. A dicotomização em um ponto diferente da mediana perderá muito mais informações. O uso de uma regra de pontuação inadequada, como a proporção classificada "corretamente", é no máximo $\frac{1}{\pi}$ ou cerca de $\frac{2}{\pi}$ eficiente. Isso resulta na seleção dos recursos errados e na descoberta de um modelo falso. $\frac{2}{3}$

Frank Harrell
fonte

h

$h$

H

$H$

P_{(x, y) \sim D} (h (x) \neq y)

$P_{(x,y) \sim D}(h(x) \neq y)$

S

$S$

D

$D$

O problema é que a classificação (em oposição à previsão de risco) é uma dicotomização desnecessária.

Frank Harrell

Portanto, é seguro supor que a resposta a essa pergunta nunca seja, desde que o objetivo seja a tomada de decisão ideal da Bayes com relação a alguma função de utilidade e que não corresponda exatamente às probabilidades?

alto

P r o b (Y = 1 | X = x)

$Prob(Y = 1 | X=x)$

P r o b (Y = 1 | X > c)

$Prob(Y=1 | X > c)$

Boa discussão. Em alguns casos, como em alguns detectores de spam, você pode obter um 'incerto'. Estou mais preocupado com a limitação de problemas como diagnóstico médico e prognóstico.

25714 Frank Barrett