Determinar a precisão do modelo que estima a probabilidade de evento

Estou modelando um evento com dois resultados, a e b. Eu criei um modelo que estima a probabilidade de que a ou b aconteça (ou seja, o modelo calculará que a acontecerá com 40% de chance eb acontecerá com 60% de chance).

Eu tenho um grande registro de resultados de ensaios com as estimativas do modelo. Gostaria de quantificar a precisão do modelo usando esses dados - isso é possível? Em caso afirmativo, como?

predictive-models scoring-rules Pedro
fonte

Posso estar errado, mas acho que você está interessado no erro de treinamento e / ou teste do seu modelo. Veja, por exemplo: cs.ucla.edu/~falaki/pub/classification.pdf

Stijn

@Stijn Ele está prevendo a probabilidade, em vez de classificar diretamente como a ou b, então não acho que essas métricas sejam o que ele está pedindo.

Michael McGowan

Você está mais interessado em saber como o modelo funcionará para classificação (nesse caso, o tipo de análise ROC e AUC parece mais relevante ( en.wikipedia.org/wiki/Receiver_operating_characteristic )? Ou você está mais interessado em entender como "calibrado" as previsões de probabilidade são (ou seja, faz P (resultado = a) = 60% realmente média de 60%, ou apenas esse resultado = a é mais provável que os outros resultados ...

DavidR

Parece que você deseja saber sobre a pontuação de probabilidade .

whuber

Elvis, um artigo na edição atual da Decision Analysis chamou minha atenção para a pontuação de probabilidade. Parece basear-se em literatura substancial sobre o tema. (Porém, como não tenho acesso a mais do que o resumo, não posso comentar o próprio artigo.) Um artigo de capa dos editores da revista ( disponível gratuitamente ) menciona vários artigos anteriores sobre o mesmo tópico.

whuber

Respostas:

Suponha que seu modelo realmente preveja A com 40% de chance e B com 60% de chance. Em algumas circunstâncias, convém converter isso em uma classificação de que B acontecerá (já que é mais provável que A). Uma vez convertidas em uma classificação, todas as previsões são certas ou erradas, e existem várias maneiras interessantes de calcular essas respostas certas e erradas. Uma é a precisão direta (a porcentagem de respostas corretas). Outros incluem precisão e recall ou F-measure . Como outros já mencionaram, você pode querer observar a curva ROC . Além disso, seu contexto pode fornecer uma matriz de custos específica que recompense os verdadeiros positivos de maneira diferente dos verdadeiros negativos e / ou penalize os falsos positivos de maneira diferente dos falsos negativos.

No entanto, acho que não é isso que você realmente está procurando. Se você disse que B tem 60% de chance de acontecer e eu disse que tinha 99% de chance de acontecer, temos previsões muito diferentes, embora ambas sejam mapeadas para B em um sistema de classificação simples. Se A acontecer, você estará errado enquanto eu estiver errado, então espero receber uma penalidade mais dura do que você. Quando seu modelo realmente produz probabilidades, uma regra de pontuação é uma medida do desempenho de suas previsões de probabilidade. Especificamente, você provavelmente deseja uma regra de pontuação adequada , o que significa que a pontuação é otimizada para resultados bem calibrados.

B S = \frac{1}{N} \sum_{t = 1}^{N} (f_{t} - o_{t})^{2}

$BS = \frac{1}{N}\sum\limits _{t=1}^{N}(f_t-o_t)^2$

f_{t}

$f_t$

o_{t}

$o_t$

É claro que o tipo de regra de pontuação que você escolher pode depender do tipo de evento que você está tentando prever. No entanto, isso deve lhe dar algumas idéias para pesquisar mais.

Vou adicionar uma ressalva de que, independentemente do que você faz, ao avaliar seu modelo dessa maneira, sugiro que você analise sua métrica em dados fora da amostra (ou seja, dados não usados para criar seu modelo). Isso pode ser feito através da validação cruzada . Talvez, de maneira mais simples, você possa construir seu modelo em um conjunto de dados e depois avaliar em outro (tomando cuidado para não permitir inferências do vazamento fora da amostra para a modelagem dentro da amostra).

Michael McGowan
fonte