Diferença entre Bayes ingênuo e Bayes ingênuo multinomial

29

Já lidei com o classificador Naive Bayes . Ultimamente tenho lido sobre Multinomial Naive Bayes .

Também Probabilidade Posterior = (Prioridade * Probabilidade) / (Evidência) .

A única diferença principal (ao programar esses classificadores) que encontrei entre Naive Bayes e Multinomial Naive Bayes é que

O Naive Bayes multinacional calcula a probabilidade de contar uma palavra / token (variável aleatória) e Naive Bayes calcula a probabilidade de ser o seguinte:

insira a descrição da imagem aqui

Corrija-me se eu estiver errado!

garak
fonte
1
Você encontrará muitas informações no seguinte pdf: cs229.stanford.edu/notes/cs229-notes2.pdf
B_Miner
Christopher D. Manning, Prabhakar Raghavan e Hinrich Schütze. " Introdução à recuperação de informações " . 2009, capítulo 13 sobre Classificação de texto e Naive Bayes também é bom.
Franck Dernoncourt

Respostas:

43

O termo geral Naive Bayes refere-se às fortes premissas de independência no modelo, em vez da distribuição específica de cada recurso. Um modelo do Naive Bayes assume que cada um dos recursos que ele usa é condicionalmente independente um do outro, dada alguma classe. Mais formalmente, se eu quiser calcular a probabilidade de observar as características a f n , dada uma classe c, sob a suposição de Naive Bayes, o seguinte vale:f1fn

p(f1,...,fn|c)=i=1np(fi|c)

Isso significa que quando eu quero usar um modelo Naive Bayes para classificar um novo exemplo, a probabilidade posterior é muito mais simples de se trabalhar:

p(c|f1,...,fn)p(c)p(f1|c)...p(fn|c)

É claro que essas suposições de independência raramente são verdadeiras, o que pode explicar por que alguns se referiram ao modelo como o modelo "Idiot Bayes", mas, na prática, os modelos Naive Bayes tiveram um desempenho surpreendentemente bom, mesmo em tarefas complexas nas quais fica claro que os fortes suposições de independência são falsas.

Até o momento, não dissemos nada sobre a distribuição de cada recurso. Em outras palavras, deixamos indefinido. O termo Multinomial Naive Bayes simplesmente nos permite saber que cada p ( f i | c ) é uma distribuição multinomial, em vez de outra distribuição. Isso funciona bem para dados que podem ser facilmente transformados em contagens, como contagens de palavras no texto.p(fi|c)p(fi|c)

A distribuição que você estava usando com o classificador Naive Bayes é um pdf em Guassian, então acho que você poderia chamá-lo de classificador Guassian Naive Bayes.

Em resumo, o classificador Naive Bayes é um termo geral que se refere à independência condicional de cada um dos recursos do modelo, enquanto o classificador Multinomial Naive Bayes é uma instância específica de um classificador Naive Bayes que usa uma distribuição multinomial para cada um dos recursos.

Referências:

Stuart J. Russell e Peter Norvig. 2003. Inteligência Artificial: Uma Abordagem Moderna (2 ed.). Pearson Education. Veja a pág. 499 para referência ao "idiota Bayes", bem como à definição geral do modelo Naive Bayes e suas suposições de independência

jlund3
fonte
Os links estão quebrados
ssoler
@ jlund3, Obrigado pela boa explicação. Como incorporamos as informações da distribuição em nosso classificador? Quero dizer, como o fomula p (c | f1, ..., fn) ∝p (c) p (f1 | c) ... p (fn | c) muda com base no fato de ser uma distribuição guassiana versus multimodal
David
Obrigado pela breve explicação, mas eu recomendo o livro (Stuart J. Russell e Peter Norvig. 2003. Inteligência Artificial: Uma Abordagem Moderna (2 ed.)) Mencionado acima para obter mais conhecimento sobre NB e Técnicas de Inteligência Artificial também ..
Mirani
as contagens de distribuição multinomial não são independentes. veja minha pergunta aqui: datascience.stackexchange.com/questions/32016/…
Hanan Shteingart
10

Em geral, para treinar Naive Bayes para dados n-dimensionais ek classes você precisa estimar P(xEu|cj) para cada 1Eun, 1jk. Você pode assumir qualquer distribuição de probabilidade para qualquer par(Eu,j) (embora seja melhor não assumir distribuição discreta para P(xEu|cj1) e contínuo para P(xEu|cj2)) Você pode ter distribuição gaussiana em uma variável, Poisson em outra e algumas discretas em outra variável.

Naive Bayes multinomial simplesmente assume distribuição multinomial para todos os pares, o que parece ser uma suposição razoável em alguns casos, isto é, para contagem de palavras em documentos.

sjm.majewski
fonte