Por que o classificador ingênuo de bayes é ideal para perda de 0-1?

O classificador Naive Bayes é o classificador que atribui itens a uma classe base na maximização do posterior para associação à classe e assume que os recursos dos itens são independentes. $x$ $C$ $P(C|x)$

A perda de 0-1 é a perda que atribui a qualquer classificação incorreta uma perda de "1" e uma perda de "0" a qualquer classificação correta.

Costumo ler (1) que o classificador "Naive Bayes" é ideal para a perda de 0-1. Por que isso é verdade?

(1) Uma fonte exemplar: classificador Bayes e erro Bayes

machine-learning bayesian optimization naive-bayes loss-functions
fonte

Você pode fornecer uma referência para sua afirmação: " Costumo ler que o classificador" Naive Bayes "é ideal para a perda de 0-1 "? Como, onde podem ter de ler este tipo de declaração no passado

Jon

editada, adicionou uma fonte

Na verdade, isso é bem simples: o classificador Bayes escolhe a classe que tem maior probabilidade de ocorrência a posteriori (chamada estimativa máxima a posteriori ). A função de perda 0-1 penaliza a classificação incorreta, ou seja, atribui a menor perda à solução que possui o maior número de classificações corretas. Então, nos dois casos, estamos falando sobre o modo de estimativa . Lembre-se de que o modo é o valor mais comum no conjunto de dados ou o valor mais provável ; portanto, maximizar a probabilidade posterior e minimizar a perda de 0-1 leva à estimativa do modo.

Se você precisa de uma prova formal, essa é apresentada no artigo Introdução à teoria da decisão bayesiana de Angela J. Yu:

A função de perda binária 0-1 tem o seguinte formato:

$l_{x} (\hat{s}, s^{*}) = 1 - δ_{\hat{s} s^{*}} = {\begin{cases} 1 & if \hat{s} \neq s^{*} \\ 0 & otherwise \end{cases}$ $l_\boldsymbol{x}(\hat s, s^*) = 1 - \delta_{\hat ss^*} = \begin{cases} 1 & \text{if} \quad \hat s \ne s^* \\ 0 & \text{otherwise} \end{cases}$
onde é a função Delta Kronecker. (...) a perda esperada é: $\delta$

$\begin{aligned} L_{x} (\hat{s}) & = \sum_{s^{*}} l_{x} (\hat{s}, s^{*}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} (1 - δ_{\hat{s} s^{*}}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} P (s = s^{*} ∣ x) d s^{*} - \sum_{s^{*}} δ_{\hat{s} s^{*}} P (s = s^{*} ∣ x) \\ = 1 - P (s = s^{*} ∣ x) \end{aligned}$ $\begin{align} \mathcal{L}_\boldsymbol{x}(\hat s) &= \sum_{s^*} l_\boldsymbol{x}(\hat s, s^*) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} (1 - \delta_{\hat ss^*}) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} P(s = s^* \mid \boldsymbol{x}) ds^* - \sum_{s^*} \delta_{\hat ss^*} P(s = s^* \mid \boldsymbol{x}) \\ &= 1 - P(s = s^* \mid \boldsymbol{x}) \end{align}$

Isso é verdadeiro para a estimativa máxima a posteriori em geral. Portanto, se você conhece a distribuição posterior, assumindo a perda de 0-1, a regra de classificação mais ideal é adotar o modo da distribuição posterior, chamamos isso de classificador Bayes ideal . Na vida real, geralmente não sabemos a distribuição posterior, mas a estimamos. O classificador Naive Bayes aproxima o classificador ideal observando a distribuição empírica e assumindo a independência dos preditores. O classificador Bayes tão ingênuo não é, por si só, ideal, mas aproxima-se da solução ideal. Na sua pergunta, você parece confundir essas duas coisas.

Tim
fonte

Acho que entendi: então a prova formal seria algo como Perda (ação_1) = 1-P (ação_2 | dados) <--- queremos minimizar isso. Minimizar isso é novamente igual a maximizar o prior da classe correta (ou seja, maximizar P (action_2 | data) .O que me confunde, no entanto, é por que nem todo classificador seria ideal com relação a isso - pois esse parece ser o requisito mais básico . para a atribuição de um datasample a uma classe Então, se nós sempre escolheu para atribuir o nosso datasample para a classe com maior posterior, não estamos fullfilling automaticamente essa otimização?

O @TestGuest verifica minha edição para obter uma prova formal.

Tim

Esse é o formalismo mais complicado que já vi para essa prova :)) obrigado, no entanto, espero que ajude os outros também.

Por que o classificador ingênuo de bayes é ideal para perda de 0-1?

Respostas: