Existe algum método padrão para determinar um ponto de operação "ideal" em uma curva de recuperação de precisão ? (ou seja, determinar o ponto na curva que oferece uma boa relação entre precisão e recall)
obrigado
fonte
Existe algum método padrão para determinar um ponto de operação "ideal" em uma curva de recuperação de precisão ? (ou seja, determinar o ponto na curva que oferece uma boa relação entre precisão e recall)
obrigado
A definição de "ideal" dependerá, é claro, de seus objetivos específicos, mas aqui estão alguns métodos relativamente "padrão":
Ponto da taxa de erro igual (EER): o ponto em que a precisão é igual à recuperação. Para algumas pessoas, isso parece um ponto de operação "natural".
Uma versão refinada e com mais princípios do exposto acima é especificar o custo dos diferentes tipos de erros e otimizar esse custo. Digamos que classificar incorretamente um item (um erro de precisão) seja duas vezes mais caro do que perder um item completamente (erro na retirada). Então o melhor ponto de operação é aquele em que (1 - recall) = 2 * (1 - precisão).
Em alguns problemas, as pessoas têm uma taxa mínima aceitável natural de precisão ou recall. Digamos que você saiba que, se mais de 20% dos dados recuperados estiverem incorretos, os usuários deixarão de usar seu aplicativo. Então é natural definir a precisão em 80% (ou um pouco menor) e aceitar qualquer recall que você tiver nesse momento.
Não sei ao certo como isso é "padrão", mas uma maneira seria escolher o ponto mais próximo de (1, 1) - ou seja, 100% de recall e 100% de precisão. Esse seria o equilíbrio ideal entre as duas medidas. Isso pressupõe que você não valoriza a precisão em vez de rechamada ou vice-versa.