Como escolher uma métrica de erro ao avaliar um classificador?

15

Vi métricas de erro diferentes usadas nas competições do Kaggle: RMS, média quadrada, AUC, entre outras. Qual é a regra geral da escolha de uma métrica de erro, ou seja, como você sabe qual métrica de erro usar para um determinado problema? Existem diretrizes?

Vishal
fonte

Respostas:

12

O conjunto de métricas de erro que você pode escolher é diferente entre classificação e regressão. Neste último, você tenta prever um valor contínuo e, com a classificação, prevê classes discretas como "íntegro" ou "não íntegro". A partir dos exemplos mencionados, o erro quadrático médio da raiz seria aplicável para a regressão e a AUC para a classificação com duas classes.

Deixe-me dar um pouco mais de detalhes sobre classificação. Você mencionou a AUC como uma medida, que é a área sob a curva ROC, que geralmente é aplicado apenas a problemas de classificação binária com duas classes. Embora existam maneiras de construir uma curva ROC para mais de duas classes, elas perdem a simplicidade da curva ROC para duas classes. Além disso, as curvas ROC só podem ser construídas se o classificador de escolha gerar algum tipo de pontuação associada a cada previsão. Por exemplo, a regressão logística fornecerá probabilidades para cada uma das duas classes. Além da simplicidade, as curvas ROC têm a vantagem de não serem afetadas pela razão entre instâncias rotuladas positiva e negativamente em seus conjuntos de dados e não o forçam a escolher um limite. No entanto, é recomendável não apenas olhar apenas para a curva ROC, mas também outras visualizações. Eu recomendo dar uma olhada nas curvas de recuperação de precisão e nas curvas de custo.uma verdadeira medida de erro, todos eles têm suas forças e fraquezas.

A literatura que achei útil a esse respeito é:

Se o seu classificador não fornecer algum tipo de pontuação, você deverá recorrer às medidas básicas que podem ser obtidas de uma matriz de confusão que contém o número de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos. As visualizações mencionadas acima (ROC, precisão, recuperação, curva de custo) são todas baseadas nessas tabelas obtidas usando um limiar diferente da pontuação do classificador. A medida mais popular nesse caso é provavelmente a medida F1NN×NN 2×2UMAUMA

sebp
fonte
1
NN×NN 2×2
Muito obrigado por apontar esse erro, eu o corrigi na resposta acima.
sebp 13/08/12
5

Deixe-me acrescentar mais algumas reflexões às respostas já existentes.

  • de fato, a maioria dos classificadores possui uma pontuação contínua intermediária, na qual geralmente é aplicado um limite para atribuir classes difíceis (abaixo de t: classe a, acima: classe b). A variação desse limite produz o ROC.
  • Em geral, não é uma boa ideia compactar essa curva em um número. veja, por exemplo, O Caso Contra Estimativa de Precisão para Comparação de Algoritmos de Indução
    Há muitos ROC diferentes que têm a mesma AUC, e a utilidade pode variar amplamente para uma determinada aplicação.
  • ao contrário: a escolha do limite pode ser praticamente determinada pelo aplicativo que você possui.
  • Você não precisa examinar o desempenho do classificador fora desses limites e, se escolher uma métrica, isso deve resumir pelo menos apenas o intervalo relevante das outras métricas limitadas.
  • dependendo do desenho do seu estudo, a fração geral de amostras corretamente ou classificadas incorretamente pode ser um resumo apropriado ou não, e as conclusões que você pode tirar também dependerão do desenho do estudo: Seus dados de teste refletem as probabilidades anteriores (prevalência) do Aulas? Para a população em que seu classificador deve ser usado? Foi coletado de maneira estratificada? Isso está intimamente ligado ao fato de que a maioria dos usuários de um classificador está mais interessada nos valores preditivos, mas a sensibilidade e a especificidade são muito mais fáceis de medir.

  • Você pergunta sobre diretrizes gerais. Uma orientação geral é que você precisa saber

    • que tipo de desempenho você precisa (sensibilidade, especificidade, valores preditivos, etc. responda a perguntas específicas sobre o comportamento do seu classificador, veja o que escrevi aqui ).
    • Quais faixas de trabalho aceitáveis ​​para essas características de desempenho para sua aplicação?
      Isso pode variar bastante: você pode aceitar alguns falsos negativos na detecção de spam, mas isso não seria uma configuração aceitável para o diagnóstico do HIV ...

Acho que você não conseguirá encontrar uma métrica útil, a menos que possa responder a essas perguntas.

É um pouco como se também não houvesse almoço grátis na validação do classificador.

cbeleites apoia Monica
fonte
2

A taxa esperada de erro de classificação incorreta é o método que usei e vi com mais frequência. A AUC do ROC é uma medida de um conjunto de regras de classificação. Se a ideia é comparar um classificador específico com outro, a AUC não é apropriada. Alguma forma de erro de classificação faz mais sentido, pois representa mais diretamente o desempenho da regra de classificação.

Muito trabalho foi feito para encontrar boas estimativas da taxa de erro de classificação, devido ao grande viés da estimativa de re-substituição e à alta variação da exclusão. Bootstrap e estimadores suaves foram analisados. Veja, por exemplo, o artigo de Efron no JASA 1983 sobre melhorias de autoinicialização sobre validação cruzada.

Aqui está um relatório técnico da Universidade de Stanford de 1995, de Efron e Tibshirami, resumindo a literatura, incluindo alguns dos meus próprios trabalhos.

Michael R. Chernick
fonte
Comparar o desempenho de dois classificadores no mesmo conjunto de dados é outro tópico a ser discutido. Especialmente, no caso do ROC e da AUC, existem alguns métodos para comparar as curvas do ROC como um todo ou as estimativas da AUC. Esses são essencialmente testes estatísticos com a hipótese nula de que o ROC / AUC não difere. A validação cruzada versus o bootstrap é outro tópico interessante. Vi recentemente um artigo ( dx.doi.org/10.1016/j.csda.2010.03.004 ) sobre isso. Eu acho que se você considerar todos os aspectos de uma só vez, pode ser bastante intimidador.
sebp 13/08/12