O que significa que a AUC é uma regra de pontuação semi-adequada?

16

Uma regra de pontuação adequada é uma regra que é maximizada por um modelo 'verdadeiro' e não permite 'hedging' ou jogo do sistema (relatando deliberadamente resultados diferentes, como é a crença verdadeira do modelo para melhorar a pontuação). A pontuação Brier é adequada, a precisão (proporção classificada corretamente) é inadequada e muitas vezes desencorajada. Às vezes, vejo que a AUC é chamada de regra de pontuação semi-adequada, o que a torna não totalmente falsa como precisão, mas menos sensível que as regras apropriadas (por exemplo, aqui /stats//a/90705/53084 ).

O que significa a regra de pontuação semi-adequada? Está definido em algum lugar?

rep_ho
fonte
Uma fonte ou referência em que você vê o termo pode ajudar as pessoas a se interessarem?
Sixiang.Hu
Acredito que isso tenha a ver com o fato de que a AUC é aproximadamente igual ao índice de concordância, que é uma pontuação adequada, no caso de previsão de probabilidade. Mas isso soa como uma pergunta para Frank Harrell a resposta: stats.stackexchange.com/users/4253/frank-harrell
Brash Equilibrium
2
até onde eu sei, AUC é o índice de concordância, que não é apropriado.
rep_ho

Respostas:

14

Vamos começar com um exemplo. Say Alice é uma treinadora de trilhas e quer escolher um atleta para representar o time em um próximo evento esportivo, um sprint de 200m. Naturalmente, ela quer escolher o corredor mais rápido.

  • Uma regra de pontuação estritamente adequada seria nomear o corredor mais rápido da equipe nos 200m de distância. Isso maximiza exatamente o que a treinadora Alice deseja nessa situação. O atleta com o desempenho esperado mais rápido é selecionado - este é um teste discriminatório justo.
  • Uma regra de pontuação adequada seria escolher um atleta capaz de correr 200m mais rápido, mas o tempo é arredondado para a metade de segundo mais próxima. O melhor atleta, bem como potencialmente alguns outros atletas, também serão capazes de passar neste teste. Todos os atletas selecionados dessa maneira são bastante competitivos, mas claramente este não é um teste discriminatório perfeito de velocidade.
  • Uma regra de pontuação semi-adequada seria escolher um atleta capaz de correr 200m abaixo de um limite de tempo competitivo, por exemplo, 22 segundos. Como antes, o melhor atleta e outros atletas também serão capazes de passar neste teste. Da mesma forma, todos os atletas selecionados dessa maneira podem ser bastante competitivos, mas claramente não apenas esse não é um teste discriminatório perfeito, mas também pode ser terrivelmente ruim (se escolhermos um tempo muito tolerante ou rigoroso). Observe que não está totalmente errado.
  • Uma regra de pontuação inadequada seria escolher o atleta com as pernas mais fortes, por exemplo, quem pode agachar mais pesos. Certamente, qualquer bom velocista provavelmente tem pernas muito fortes, mas esse teste significa que alguns caras da equipe de levantamento de peso serão excelentes aqui. Claramente, um levantador de peso em uma corrida de 200m seria catastrófico!

Embora um pouco banalizado, o exemplo acima mostra o que ocorre com o uso de regras de pontuação. Alice estava prevendo o tempo esperado para o sprint. Dentro do contexto da classificação, prevemos probabilidades, minimizando o erro de um classificador probabilístico.

  • Uma regra de pontuação estritamente adequada , como a pontuação de Brier, garante que a melhor pontuação só será alcançada quando estivermos o mais próximo possível das verdadeiras probabilidades.
  • Uma regra de pontuação adequada , como a pontuação contínua de probabilidade classificada (CRPS), não garante que a melhor pontuação seja alcançada apenas por um classificador cujas previsões sejam as mais próximas das probabilidades reais. Outros classificadores candidatos podem obter pontuações no CRPS que correspondem ao do classificador ideal.
  • Uma regra de pontuação semi-adequada , como a AUC-ROC, não apenas garante que o melhor desempenho seja alcançado por um classificador cujas previsões sejam as mais próximas das probabilidades verdadeiras, mas também é (potencialmente) possível melhorar os valores de AUC-ROC, afastando as probabilidades previstas dos valores reais. No entanto, sob certas condições (por exemplo, a distribuição de classe é a priori conhecida no caso da AUC-ROC), essas regras podem se aproximar de uma regra de pontuação adequada. Byrne (2016) " Uma observação sobre o uso da AUC empírica para avaliar previsões probabilísticas " levanta alguns pontos interessantes em relação à AUC-ROC.
  • Uma regra de pontuação inadequada , como Precisão, oferece pouca ou nenhuma conexão à nossa tarefa original de prever probabilidades o mais próximo possível das probabilidades verdadeiras.

Como vemos , a regra de pontuação semi-adequada não é perfeita, mas também não é totalmente catastrófica. Na verdade, pode ser bastante útil durante a previsão! Cagdas Ozgenc tem um ótimo exemplo aqui, onde trabalhar com uma regra imprópria / semi-adequada é preferível a uma regra estritamente apropriada. Em geral, o termo regra de pontuação semi-adequada não é muito comum. Está associado a regras impróprias que podem, no entanto, ser úteis (por exemplo, AUC-ROC ou MAE na classificação probabilística).

Finalmente, observe algo importante. Como a corrida está associada a pernas fortes, o mesmo ocorre com a classificação probabilística correta com Precisão. É improvável que um bom velocista tenha pernas fracas e, da mesma forma, é improvável que um bom classificador tenha uma Precisão ruim. No entanto, equiparar precisão com bom desempenho do classificador é como equiparar a força das pernas a um bom desempenho de corrida. Não é completamente infundado, mas muito plausível para levar a resultados sem sentido.

usεr11852 diz Reinstate Monic
fonte