AIC e estatística c estão tentando responder a perguntas diferentes. (Também alguns problemas com a estatística-c foram levantados nos últimos anos, mas vou falar disso como um aparte)
A grosso modo:
- A AIC está lhe dizendo o quão bom seu modelo se encaixa para um custo específico de má classificação.
- A AUC está lhe dizendo o quão bom seu modelo funcionaria, em média, em todos os custos de classificação incorreta.
Quando você calcula a AIC, trata sua logística dando uma previsão de, por exemplo, 0,9 como uma previsão de 1 (ou seja, mais provável que 1 que 0), no entanto, não precisa ser. Você pode obter sua pontuação logística e dizer "qualquer coisa acima de 0,95 é 1, tudo abaixo é 0". Por que você faria isso? Bem, isso garantiria que você apenas preveja uma quando estiver realmente realmente confiante. Sua taxa de falso positivo será realmente muito baixa, mas seu falso negativo disparará. Em algumas situações, isso não é algo ruim - se você vai acusar alguém de fraude, provavelmente quer ter muita certeza primeiro. Além disso, se for muito caro acompanhar os resultados positivos, você não deseja muitos deles.
É por isso que se relaciona com custos. Existe um custo quando você classifica um 1 como 0 e um custo quando classifica um 0 como 1. Normalmente (assumindo que você usou uma configuração padrão), o AIC para regressão logística refere-se ao caso especial em que ambas as classificações incorretas são igualmente dispendioso. Ou seja, a regressão logística fornece o melhor número geral de previsões corretas, sem nenhuma preferência por positivo ou negativo.
A curva ROC é usada porque isso representa o positivo verdadeiro contra o falso positivo, a fim de mostrar como o classificador funcionaria se você a usasse sob diferentes requisitos de custo. A estatística c ocorre porque qualquer curva ROC estritamente acima de outra é claramente um classificador dominante. Portanto, é intuitivo medir a área sob a curva como uma medida da qualidade geral do classificador.
Então, basicamente, se você conhece seus custos ao ajustar o modelo, use AIC (ou similar). Se você está apenas construindo uma pontuação, mas não especificando o limiar de diagnóstico, são necessárias abordagens da AUC (com a seguinte ressalva sobre a própria AUC).
Então, o que há de errado com estatística c / AUC / Gini?
Por muitos anos, a AUC foi a abordagem padrão e ainda é amplamente utilizada, no entanto, existem vários problemas com ela. Uma coisa que o tornou particularmente atraente foi o fato de corresponder a um teste de Wilcox nas fileiras das classificações. Ou seja, mede a probabilidade de a pontuação de um membro escolhido aleatoriamente de uma classe ser maior do que um membro escolhido aleatoriamente da outra classe. O problema é que quase nunca é uma métrica útil.
Os problemas mais críticos com a AUC foram divulgados por David Hand alguns anos atrás. (Veja as referências abaixo) O ponto crucial do problema é que, embora a AUC calcule a média de todos os custos, porque o eixo x da curva ROC é a taxa de falsos positivos, o peso que ele atribui aos diferentes regimes de custo varia entre os classificadores. Portanto, se você calcular a AUC em duas regressões logíticas diferentes, ela não medirá "a mesma coisa" nos dois casos. Isso significa que faz pouco sentido comparar modelos com base na AUC.
Hand propôs um cálculo alternativo usando uma ponderação de custo fixo e chamou isso de medida H - existe um pacote em R chamado hmeasure
que executará esse cálculo, e acredito que a AUC para comparação.
Algumas referências sobre os problemas com a AUC:
Quando a área sob a curva de característica operacional do receptor é uma medida apropriada do desempenho do classificador? Mão de DJ, C. Anagnostopoulos Cartas de reconhecimento de padrões 34 (2013) 492–495
(Eu achei essa uma explicação particularmente acessível e útil)
O documento da mão citado não tem base no uso do mundo real em diagnósticos clínicos. Ele tem uma curva teórica com uma AUC de 0,5, que é um classificador perfeito. Ele usa um único conjunto de dados do mundo real, em que os modelos seriam descartados, por serem tão ruins, e ao contabilizar os intervalos de confiança em torno das medições (dados não fornecidos, mas inferidos) provavelmente são aleatórios . Dada a falta de dados do mundo real (ou mesmo de simulação plausível), este é um artigo vazio. Pessoalmente, estive envolvido na análise de milhares de classificadores entre milhares de pacientes (com graus de liberdade suficientes). Nesse contexto, seus argumentos não são sensoriais.
Ele também é propenso a superlativos (não é um bom sinal em nenhum contexto) e faz generalizações sem suporte, por exemplo, os custos não podem ser conhecidos. Na medicina, existem custos que são aceitos, como valor preditivo positivo de 10% para testes de triagem e US $ 100.000 por ano de vida ajustado pela qualidade para intervenções terapêuticas. Acho difícil acreditar que, na pontuação de crédito, os custos não sejam bem compreendidos. Se ele está dizendo (claramente) que diferentes falsos positivos e falsos negativos individuais carregam custos diferentes, embora esse seja um tópico muito interessante, ele não se parece com classificadores binários.
Se o argumento dele é que a forma do ROC é importante, então, para usuários sofisticados, isso é óbvio, e usuários não sofisticados têm muito mais com o que se preocupar, por exemplo, incorporando a prevalência em valores preditivos positivos e negativos.
Por fim, não consigo entender como diferentes classificadores não podem ser julgados com base nos vários cortes do mundo real determinados pelo uso clínico (ou financeiro) dos modelos. Obviamente, diferentes pontos de corte seriam escolhidos para cada modelo. Os modelos não seriam comparados com base apenas nas AUCs. Os classificadores não importam, mas a forma da curva importa.
fonte
Para mim, a conclusão é que, embora a estatística C (AUC) possa ser problemática ao comparar modelos com diferentes variáveis independentes (análoga ao que Hand chama de "classificadores"), ainda é útil em outras aplicações. Por exemplo, estudos de validação em que o mesmo modelo é comparado entre diferentes populações de estudo (conjuntos de dados). Se um modelo ou índice / pontuação de risco mostrar-se altamente discriminante em uma população, mas não em outras, isso pode significar que não é uma ferramenta muito boa em geral, mas pode ser em casos específicos.
fonte