A precisão é uma regra de pontuação inadequada em uma configuração de classificação binária?

13

Recentemente, aprendi sobre regras de pontuação adequadas para classificadores probabilísticos. Vários tópicos neste site fizeram questão de enfatizar que a precisão é uma regra de pontuação inadequada e não deve ser usada para avaliar a qualidade das previsões geradas por um modelo probabilístico, como a regressão logística.

No entanto, muitos trabalhos acadêmicos que li têm apresentado perda de classificação incorreta como exemplo de uma regra de pontuação adequada (não estrita) em uma configuração de classificação binária. A explicação mais clara que encontrei foi neste artigo , na parte inferior da página 7. Até onde eu entendi, minimizar a perda de classificação incorreta é equivalente a maximizar a precisão, e as equações no artigo fazem sentido intuitivamente.

Por exemplo: usando a notação do artigo, se a verdadeira probabilidade condicional (dado algum vetor de característica x ) da classe de interesse for η = 0,7, qualquer previsão q > 0,5 teria uma perda esperada R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3, e qualquer q 0,5 teria uma perda esperada de 0,7. A função de perda seria, portanto, minimizada em q = η = 0,7 e, consequentemente, adequada; a generalização para toda a gama de verdadeiras probabilidades e previsões condicionais parece bastante direta a partir daí.

Assumindo que os cálculos e declarações acima estão corretos, as desvantagens de um mínimo não único e todas as previsões acima de 0,5 que compartilham a mesma perda mínima esperada são óbvias. Ainda não vejo razão para usar a precisão sobre as alternativas tradicionais, como pontuação de log, pontuação de Brier, etc. No entanto, é correto dizer que a precisão é uma regra de pontuação adequada ao avaliar modelos probabilísticos em um cenário binário ou estou fazendo uma erro - no meu entendimento da perda de classificação incorreta ou em igualá-la com precisão?

Zyzzva
fonte

Respostas:

15

TL; DR

A precisão é uma regra de pontuação inadequada. Não use.

A versão um pouco mais longa

Na verdade, a precisão nem sequer é uma regra de pontuação. Então, perguntar se é (estritamente) adequado é um erro de categoria. O máximo que podemos dizer é que sob suposições adicionais , a precisão é consistente com uma regra de pontuação inadequada, descontínua e enganosa. (Não use.)

Sua confusão

Sua confusão decorre do fato de que a perda de classificação incorreta conforme o artigo que você cita também não é uma regra de pontuação.

Os detalhes: regras de pontuação x avaliações de classificação

Vamos corrigir a terminologia. Estamos interessados em um resultado binário , e que tem uma previsão probabilística q = P ( Y = 1 ) ( 0 , 1 ) . Nós sabemos que P ( Y = 1 ) = η > 0,5 , mas o nosso modelo qy{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^ pode ou não saber que.

A regra de pontuação é um mapeamento que leva uma previsão probabilística q e um resultado y de uma perda,q^y

s:(q^,y)s(q^,y).

éapropriadase for optimizado na expectativa por q = η . ( "Optimized" geralmente significa "minimizado", mas sinais alguns autores aleta e tentar maximizar uma regra de pontuação.) S éestritamente adequadose ele é otimizado na expectativaúnicapor q = ηsq^=ηsq^=η .

Nós normalmente avaliar em muitas previsões q i e os resultados correspondentes y i e média para estimar esta expectativa.sq^iyi

Agora, o que é precisão ? A precisão não aceita uma previsão probabilística como argumento. É preciso uma classificação y{ 0 , 1 }y^{0,1} e um resultado:

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

Portanto, a precisão não é uma regra de pontuação . É uma avaliação de classificação. (Este é um termo que acabei de inventar; não o procure na literatura.)

Agora, é claro que podemos ter uma previsão probabilística como a nossa q e transformá-lo em uma classificação y . Mas, para fazer isso, precisaremos das suposições adicionais mencionadas acima. Por exemplo, é muito comum usar um limite θ e classificar:q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

Um valor limite muito comum é . Note-se que se utilize este limiar e depois avaliar a precisão ao longo de muitos previsões q i (como acima) e os resultados correspondentes y i , em seguida, que chegam exactamente na perda de erros de classificação de acordo com Buja et al. Portanto, a perda de classificação incorreta também não é uma regra de pontuação, mas uma avaliação de classificação.θ=0.5q^iyi

Se usarmos um algoritmo de classificação como o descrito acima, podemos transformar uma avaliação de classificação em uma regra de pontuação. O ponto é que precisamos das suposições adicionais do classificador. E essa precisão ou má classificação de perda ou qualquer outra avaliação de classificação que escolhemos pode, então, depender menos a previsão probabilística q e muito mais sobre a forma como transformar q em uma classificação y = y ( q , θ ) . Então otimizar a avaliação de classificação pode ser perseguindo um arenque vermelho, se estamos realmente interessados em avaliar q .q^q^y^=y^(q^,θ)q^

Agora, o que é impróprio sobre essas regras de pontuação sob suposições adicionais? Nada, no presente caso. Q = η , sob a implícita θ = 0,5 , irá maximizar a precisão e minimizar a perda de erros de classificação sobre todos os possíveis q( 0 , 1 ) . Portanto, neste caso, nossas regras de pontuação sob suposições adicionais são adequadas.q^=ηθ=0.5q^(0,1)

y^q^

q^θθ=0.5q^=0.99q^θq^η

θ=0.2y=1y=0q^q^=0.25q^θ

Portanto, a precisão ou perda de classificação incorreta pode ser enganosa.

Além disso, a precisão e a perda de classificação incorreta são impróprias sob as premissas adicionais em situações mais complexas em que os resultados não são reais. Frank Harrell, em seu blog Danos causados ​​pela precisão da classificação e outras regras de pontuação de precisão inadequada e descontínua cita um exemplo de um de seus livros em que o uso de perda de precisão ou classificação incorreta levará a um modelo mal especificado, uma vez que eles não são otimizados pela previsão condicional correta probabilidade.

θ

Mais informações podem ser encontradas em Por que a precisão não é a melhor medida para avaliar modelos de classificação? .

A linha inferior

Não use precisão. Nem perda de classificação incorreta.

O nitpick: "estrito" vs. "estritamente"

Deveríamos estar falando sobre regras de pontuação apropriadas "estritas" ou sobre regras de pontuação apropriadas "estritamente"? "Estrito" modifica "adequado", não "regra de pontuação". (Existem "regras de pontuação apropriadas" e "regras de pontuação estritamente apropriadas", mas não "regras de pontuação estritas".) Como tal, "estritamente" deve ser um advérbio, não um adjetivo e "estritamente". Como é mais comum na literatura, por exemplo, os trabalhos de Tilmann Gneiting.

Stephan Kolassa
fonte
Há muitos aspectos do seu post que eu não sigo (ou considero que não são relevantes para a pergunta que fiz), mas vamos começar com "a perda de classificação incorreta conforme o artigo que você cita não é uma regra de pontuação". A fórmula é dada muito claramente no artigo: L1 (1-q) = 1 [q <= 0.5] (perdoe a má formatação). É, para todos os propósitos práticos, uma função de etapa que mapeia diretamente qualquer previsão probabilística e seu resultado associado a uma perda de 0 ou 1. Além disso, 0,5 é apenas um parâmetro que controla onde a etapa ocorre; Não vejo a "suposição" envolvida. Como isso não é uma regra de pontuação?
Zyzzva 31/07/19
1
O limite de 0,5 é a suposição. A previsão probabilísticaqé mapeado para uma classificação usando o limite, e a perda de classificação incorreta é apenas uma função dessa classificação. Você poderia calcular a perda de classificação incorreta igualmente para qualquer outra classificação, por exemplo, uma que role um dado e atribua uma instância à classe A se rolarmos 1 ou 2. Eu fiz o meu melhor para explicar o que é um tópico complicado e muitas vezes incompreendido (e Eu sinto que tudo o que escrevo é relevante); Sinto muito por não ter conseguido. Eu ficaria feliz em discutir quaisquer pontos restantes.
Stephan Kolassa
1
Quanto ao comentário de relevância, peço desculpas se saiu errado. Tentei focar o escopo da pergunta para ser especificamente apropriado ou impróprio, não descontínuo / enganoso / etc. Conheço bem os links que você forneceu e não tenho problemas com seus comentários sobre custos de classificação incorreta ou resultados finais. Estou apenas procurando uma explicação mais rigorosa da afirmação "a precisão é imprópria", especialmente considerando que este artigo sugere o contrário para o caso de uso comum de resultados binários. Agradeço que você reserve um tempo para discutir isso comigo e compartilhar seus pensamentos detalhados.
Zyzzva 01/08/18
1
Após uma reflexão mais aprofundada, acho que tenho uma compreensão mais clara do que você está argumentando. Se considerarmos a mesma função de etapa com a etapa em 0,6 (correspondente à classificação em um limite de 0,6), a regra de pontuação é inadequada, porque a perda esperada não será mais minimizada por uma previsão q = n para n no intervalo [ 0,5, 0,6]. De maneira mais geral, será inadequado em todos os limiares que não sejam 0,5 e, na prática, queremos usar outros limiares devido a custos assimétricos de classificação incorreta, como você apontou.
Zyzzva 01/08/19
1
Concordo que a precisão é claramente uma métrica ruim para avaliar probabilidades, mesmo quando um limite de 0,5 é justificado. Eu disse isso no final do post original que fiz, mas isso ajudou a esclarecer os detalhes específicos com os quais estava tendo problemas - a saber, reconciliar algo que eu entendi mal por mostrar que a precisão é adequada para resultados binários (quando na realidade é apenas aplica-se ao caso muito específico de um limiar de 0,5) com a declaração aparentemente em preto e branco "a precisão é imprópria" que eu tenho visto muito. Obrigado por sua ajuda e paciência.
Zyzzva 01/08/19