Para calibrar um nível de confiança para uma probabilidade de aprendizado supervisionado (digamos, mapear a confiança de um SVM ou de uma árvore de decisão usando dados superamostrados), um método é usar o Escala de Platt (por exemplo, Obtendo Probabilidades Calibradas do Impulso ).
Basicamente, utiliza-se regressão logística para mapear para [ 0 ; 1 ] . A variável dependente é o rótulo verdadeiro e o preditor é a confiança do modelo não calibrado. O que não entendo é o uso de uma variável de destino diferente de 1 ou 0. O método exige a criação de um novo "rótulo":
Para evitar o ajuste excessivo no conjunto de trens sigmóides, é usado um modelo fora da amostra. Se houver exemplos positivos e N - negativos no conjunto de trens, para cada exemplo de treinamento, a Calibração de Platt usa os valores alvo y + e y - (em vez de 1 e 0, respectivamente), onde y + = N + + 1
O que não entendo é como esse novo alvo é útil. A regressão logística não vai simplesmente tratar a variável dependente como um rótulo binário (independentemente de qual rótulo é fornecido)?
ATUALIZAR:
PROC GENMOD
data(ToothGrowth)
attach(ToothGrowth)
# 1/0 coding
dep <- ifelse(supp == "VC", 1, 0)
OneZeroModel <- glm(dep~len, family=binomial)
OneZeroModel
predict(OneZeroModel)
# Platt coding
dep2 <- ifelse(supp == "VC", 31/32, 1/32)
plattCodeModel <- glm(dep2~len, family=binomial)
plattCodeModel
predict(plattCodeModel)
compare <- cbind(predict(OneZeroModel), predict(plattCodeModel))
plot(predict(OneZeroModel), predict(plattCodeModel))
fonte
Outro método para evitar o ajuste excessivo que eu achei útil é ajustar o modelo de regressão logística univariada à saída de validação cruzada de saída do SVM, que pode ser aproximada eficientemente usando o limite Span .
No entanto, se você quiser um classificador que produz estimativas da probabilidade de pertencer a uma classe, seria melhor usar a regressão logística do kernel, que visa fazer isso diretamente. A saída do SVM é projetada para classificação discreta e não contém necessariamente as informações necessárias para uma estimativa precisa das probabilidades, longe do contorno p = 0,5.
Classificadores de processo Gaussianos são outra boa opção se você deseja um classificador probabilístico baseado em kernel.
fonte