A probabilidade prevista da regressão logística pode ser interpretada como a confiança na classificação

12

Podemos interpretar a probabilidade posterior obtida de um classificador que gera um valor de classe previsto e uma probabilidade (por exemplo, regressão logística ou Naive Bayes) como algum tipo de pontuação de confiança atribuída a esse valor de classe previsto?

mel
fonte

Respostas:

8

Como outras respostas afirmam corretamente, as probabilidades relatadas de modelos como regressão logística e Bayes ingênuo são estimativas da probabilidade de classe. Se o modelo fosse verdadeiro, a probabilidade seria de fato a probabilidade de uma classificação correta.

No entanto, é muito importante entender que isso pode ser enganoso, porque o modelo é estimado e, portanto, não é um modelo correto. Há pelo menos três questões.

  • Incerteza das estimativas.
  • Especificação incorreta do modelo.
  • Viés.

A incerteza é apenas o fato presente em todos os lugares de que a probabilidade é apenas uma estimativa. Um intervalo de confiança da probabilidade estimada da classe pode fornecer alguma idéia sobre a incerteza (da probabilidade da classe, não da classificação).

--

Se o procedimento de estimativa (intencionalmente) fornecer uma estimativa tendenciosa , as probabilidades da classe estão erradas. Isso é algo que vejo nos métodos de regularização, como laço e cume, para regressão logística. Enquanto uma opção validada de validação cruzada leva a um modelo com bom desempenho em termos de classificação, as probabilidades de classe resultantes são claramente subestimadas (muito próximas a 0,5) nos casos de teste. Isso não é necessariamente ruim, mas é importante estar ciente.

NRH
fonte
2

Para um caso de teste (entrada específica), sua probabilidade preditiva de classe (digamos o rótulo 1 para a saída binária) é a chance de o exemplo de teste pertencer a essa classe. Em muitos desses casos de teste, a proporção que pertence à classe 1 tenderá à probabilidade preditiva. A confiança tem conotações de intervalos de confiança, que são algo bem diferentes.

Yoda
fonte
1

Se um classificador predizer uma determinada classe com probabilidade, esse número poderá ser usado como proxy do grau de confiança nessa classificação. Não deve ser confundido com intervalos de confiança. Por exemplo, se o classificador P predizer dois casos como +1 e -1 com probabilidade 80% e 60%, é correto dizer que é mais seguro a classificação +1 do que a classificação -1. A variação medida por p (1-p) também é uma boa medida de incerteza. Observe que a confiança da linha de base é de 50% e não de 0.

brócolis
fonte
1

Dado um classificador com 2 classes (por exemplo, um discriminante linear de 2 classes ou classificador de regressão logística), o valor discriminante para ambas as classes pode ser aplicado a uma função softmax para produzir uma estimativa da probabilidade posterior para essa classe:

P1 = exp (d1) / (exp (d1) + exp (d2))

Onde P1 é a estimativa de probabilidade posterior para as classes 1, d1 e d2 são valores discriminantes para as classes 1 e 2, respectivamente. Nesse caso, a probabilidade posterior estimada para uma determinada classe pode ser tomada como um grau de confiança na classe, pois para um dado caso, P1 será igual a 1 - P2.

BGreene
fonte
1
Essa resposta parece equiparar "probabilidade" a "confiança", enquanto a resposta de @ Yoda (corretamente) distingue as duas.
whuber
@whuber Eu acho que, em termos gerais, a confiança pode ser vista como força da crença. Dessa forma, é como uma probabilidade. Confiança e intervalo de confiança são duas coisas diferentes. No entanto, mesmo para o termo intervalo de confiança, o nível de confiança é uma probabilidade de cobertura para o intervalo aleatório.
Michael R. Chernick
Não discordo de suas observações, @ Michael, no sentido de que um termo como "índice de confiança" possa significar quase tudo (mas talvez seu uso deva ser preterido exatamente por esse motivo). No entanto, em que sentido o valor ajustado pela regressão logística é uma "probabilidade de cobertura"? Seu uso proposto de "confiança" como força da crença o torna sinônimo de "probabilidade" subjetiva ou ainda é mantida alguma distinção? (Se sim, o que?)
whuber
1
@whuber Eu acho que você está indo muito mais fundo nisso do que eu pretendia com a minha observação. Eu só quero dizer que, apenas porque geralmente conectamos a palavra "confiança" com intervalo de confiança, isso não significa que o escore de confiança do termo OPs não possa ser usado para significar uma probabilidade (talvez como a visão bayesiana da probabilidade como um nível subjetivo de crença, mas não necessariamente).
Michael R. Chernick
1
@whuber, eu estava realmente me referindo à confiança no rótulo da classe no sentido de 'força da crença', ou seja, quanto maior o valor da probabilidade posterior para uma determinada classe, mais confiança você tem no rótulo da classe previsto. No entanto, estou feliz em remover esta resposta.
precisa saber é o seguinte