Por que ninguém usa o classificador multinomial bayesiano Naive Bayes?

15

Assim, na modelagem de texto (não supervisionada), a Alocação de Dirichlet Latente (LDA) é uma versão bayesiana da Análise Semântica Latente Probabilística (PLSA). Essencialmente, LDA = PLSA + Dirichlet anteriormente sobre seus parâmetros. Meu entendimento é que o LDA agora é o algoritmo de referência e é implementado em vários pacotes, enquanto o PLSA não deve mais ser usado.

Mas na categorização de texto (supervisionada), poderíamos fazer exatamente o mesmo para o classificador multinomial Naive Bayes e colocar um Dirichlet antes dos parâmetros. Mas acho que nunca vi alguém fazer isso, e a versão "estimativa pontual" da multinacional Naive Bayes parece ser a versão implementada na maioria dos pacotes. Há alguma razão para isso?

eu normalmente
fonte

Respostas:

7

Aqui está um bom artigo que aborda algumas das deficiências 'sistêmicas' do classificador Multinomial Naive Bayes (MNB). A idéia é que você pode melhorar o desempenho do MNB através de alguns ajustes. E eles mencionam o uso de uniformes Dirichlet anteriores.

No geral, se você está interessado no MNB e ainda não leu este documento, recomendo vivamente que o faça.

Eu também encontrei uma tese de mestrado acompanhada pela mesma pessoa / pessoas, mas ainda não a li. Você pode conferir.

Zhubarb
fonte
O segundo link está morto - provavelmente dspace.mit.edu/handle/1721.1/7074 é a versão up-to-date
beldaz
5

Suspeito que a maioria das implementações de NB permita a estimativa das probabilidades condicionais com a correção de Laplace , que fornece uma solução de MAP para o classificador Bayesian NB (com um Dirichlet específico). Como @Zhubarb (+1) aponta, os tratamentos bayesianos dos classificadores de RN já foram derivados e implementados (vale a pena ler a tese / os documentos de Rennie). No entanto, a suposição de independência do RN quase sempre está errada; nesse caso, tornar o modelo mais fortemente dependente dessa suposição (por meio de um tratamento bayesiano completo) pode não ser uma boa coisa a se fazer.

Dikran Marsupial
fonte
0

Não acredito que o que você descreve seja verdadeiro. Os modelos probabilísticos para LDA e MNB são diferentes.

Uma diferença principal entre as duas é que, no modelo generativo para LDA, quando uma palavra é desenhada, primeiro um tópico para essa palavra é escolhido e, em seguida, uma palavra dessa distribuição de tópicos é escolhida. Como cada palavra em um documento pode ser extraída de um tópico diferente.

No modelo generativo para MNB, o documento recebe uma classe e todas as palavras desse documento são extraídas da (mesma) distribuição para essa classe.

Jurgen
fonte