Usando a regra de pontuação adequada para determinar a associação de classe a partir da regressão logística

8

Estou usando regressão logística para prever a probabilidade de ocorrência de um evento. Por fim, essas probabilidades são colocadas em um ambiente de produção, onde nos concentramos o máximo possível em atingir nossas previsões de "sim". Portanto, é útil ter uma idéia do que "hits" ou "não hits" definitivos podem ser a priori (antes da execução na produção), além de outras medidas que usamos para informar essa determinação.

Minha pergunta é: qual seria a maneira correta de prever uma classe definitiva (1,0) com base na probabilidade prevista? Especificamente, eu uso o glmnetpacote de R para minha modelagem. Este pacote escolhe arbitrariamente a probabilidade 0,5 como limite para um sim ou não. Acredito que preciso levar os resultados de uma regra de pontuação adequada, com base nas probabilidades previstas, para extrapolar para uma classe definitiva. Um exemplo do meu processo de modelagem está abaixo:

mods <- c('glmnet', 'scoring')
lapply(mods, require, character.only = T)

# run cross-validated LASSO regression
fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial', 
type.measure = 'auc')

# generate predicted probabilities across new data
df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min')

# calculate Brier score for each record
df2$propscore <- brierscore(df2[,1] ~ df2$prob, data = df2)

Portanto, agora tenho uma série de pontuações de Brier para cada previsão, mas como utilizo a pontuação de Brier para ponderar adequadamente cada probabilidade de sim ou não?

Entendo que também existem outros métodos para fazer essa determinação, como a Random Forest.

NiuBiBang
fonte

Respostas:

6

O que você precisa fazer é "colocar o modelo em produção", ou seja, como você diz, para realmente prever quais casos serão "sim", o que você precisa é de uma função de perda . Você tem dois erros possíveis, dizendo "sim" quando não, dizendo "não" quando sim. Esses erros têm consequências econômicas, custos associados? Esses custos também dependem de outras coisas, como algum valor covariável específico? Em seguida, você cria essas informações em uma função de custo e pode determinar pontos de corte minimizando o custo esperado. Essa é a solução baseada em princípios.

kjetil b halvorsen
fonte
1
Sim, isso é realmente o que precisamos, por exemplo, custo para revisar por unidade. Farei minha lição de casa na criação de uma função de perda adequada, mas incluo uma medida como a regra de pontuação nisso?
NiuBiBang
Uma regra adequada de classificação e uma função de perda são dois conceitos distintos! A função de perda deve medir apenas as consequências econômicas, e uma regra de pontuação adequada não tem nada a ver com isso.
b Kjetil Halvorsen