Por que o classificador ingênuo de bayes é ideal para perda de 0-1?

13

O classificador Naive Bayes é o classificador que atribui itens a uma classe base na maximização do posterior para associação à classe e assume que os recursos dos itens são independentes.CxCP(C|x)

A perda de 0-1 é a perda que atribui a qualquer classificação incorreta uma perda de "1" e uma perda de "0" a qualquer classificação correta.

Costumo ler (1) que o classificador "Naive Bayes" é ideal para a perda de 0-1. Por que isso é verdade?

(1) Uma fonte exemplar: classificador Bayes e erro Bayes


fonte
2
Você pode fornecer uma referência para sua afirmação: " Costumo ler que o classificador" Naive Bayes "é ideal para a perda de 0-1 "? Como, onde podem ter de ler este tipo de declaração no passado
Jon
1
editada, adicionou uma fonte

Respostas:

16

Na verdade, isso é bem simples: o classificador Bayes escolhe a classe que tem maior probabilidade de ocorrência a posteriori (chamada estimativa máxima a posteriori ). A função de perda 0-1 penaliza a classificação incorreta, ou seja, atribui a menor perda à solução que possui o maior número de classificações corretas. Então, nos dois casos, estamos falando sobre o modo de estimativa . Lembre-se de que o modo é o valor mais comum no conjunto de dados ou o valor mais provável ; portanto, maximizar a probabilidade posterior e minimizar a perda de 0-1 leva à estimativa do modo.

Se você precisa de uma prova formal, essa é apresentada no artigo Introdução à teoria da decisão bayesiana de Angela J. Yu:

A função de perda binária 0-1 tem o seguinte formato:

lx(s^,s)=1δs^s={1ifs^s0otherwise

onde é a função Delta Kronecker. (...) a perda esperada é:δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1δs^s)P(s=sx)=sP(s=sx)dssδs^sP(s=sx)=1P(s=sx)

Isso é verdadeiro para a estimativa máxima a posteriori em geral. Portanto, se você conhece a distribuição posterior, assumindo a perda de 0-1, a regra de classificação mais ideal é adotar o modo da distribuição posterior, chamamos isso de classificador Bayes ideal . Na vida real, geralmente não sabemos a distribuição posterior, mas a estimamos. O classificador Naive Bayes aproxima o classificador ideal observando a distribuição empírica e assumindo a independência dos preditores. O classificador Bayes tão ingênuo não é, por si só, ideal, mas aproxima-se da solução ideal. Na sua pergunta, você parece confundir essas duas coisas.

Tim
fonte
Acho que entendi: então a prova formal seria algo como Perda (ação_1) = 1-P (ação_2 | dados) <--- queremos minimizar isso. Minimizar isso é novamente igual a maximizar o prior da classe correta (ou seja, maximizar P (action_2 | data) .O que me confunde, no entanto, é por que nem todo classificador seria ideal com relação a isso - pois esse parece ser o requisito mais básico . para a atribuição de um datasample a uma classe Então, se nós sempre escolheu para atribuir o nosso datasample para a classe com maior posterior, não estamos fullfilling automaticamente essa otimização?
O @TestGuest verifica minha edição para obter uma prova formal.
Tim
Esse é o formalismo mais complicado que já vi para essa prova :)) obrigado, no entanto, espero que ajude os outros também.