Como escolher um bom ponto de operação a partir de curvas de recall de precisão?

11

Existe algum método padrão para determinar um ponto de operação "ideal" em uma curva de recuperação de precisão ? (ou seja, determinar o ponto na curva que oferece uma boa relação entre precisão e recall)

obrigado

Amelio Vazquez-Reina
fonte

Respostas:

12

A definição de "ideal" dependerá, é claro, de seus objetivos específicos, mas aqui estão alguns métodos relativamente "padrão":

  • Ponto da taxa de erro igual (EER): o ponto em que a precisão é igual à recuperação. Para algumas pessoas, isso parece um ponto de operação "natural".

  • Uma versão refinada e com mais princípios do exposto acima é especificar o custo dos diferentes tipos de erros e otimizar esse custo. Digamos que classificar incorretamente um item (um erro de precisão) seja duas vezes mais caro do que perder um item completamente (erro na retirada). Então o melhor ponto de operação é aquele em que (1 - recall) = 2 * (1 - precisão).

  • Em alguns problemas, as pessoas têm uma taxa mínima aceitável natural de precisão ou recall. Digamos que você saiba que, se mais de 20% dos dados recuperados estiverem incorretos, os usuários deixarão de usar seu aplicativo. Então é natural definir a precisão em 80% (ou um pouco menor) e aceitar qualquer recall que você tiver nesse momento.

SheldonCooper
fonte
2

Seguindo os segundo e terceiro pontos da SheldonCooper: A escolha ideal é que outra pessoa faça a escolha, na forma de um limite (ponto 3) ou uma troca de custo-benefício (ponto 2). E talvez a melhor maneira de oferecer a eles a escolha seja com uma curva ROC .

conjugado
fonte
1

Não sei ao certo como isso é "padrão", mas uma maneira seria escolher o ponto mais próximo de (1, 1) - ou seja, 100% de recall e 100% de precisão. Esse seria o equilíbrio ideal entre as duas medidas. Isso pressupõe que você não valoriza a precisão em vez de rechamada ou vice-versa.

Hadley é meu herói
fonte