Implementação de Naive Bayes

10

Estou implementando um algoritmo Naive Bayes para categorização de texto com suavização de Laplacian. O problema que estou tendo é que a probabilidade se aproxima de zero porque estou multiplicando muitas frações pequenas. Portanto, a probabilidade acaba rendendo zero. Isso ocorre porque há várias palavras nos documentos e nos conjuntos de treinamento.

Por esse motivo, não sou capaz de categorizar os textos. Existe uma maneira de contornar esse problema? Estou fazendo algo errado na minha implementação?

sam
fonte
... Você pode evitar a aritmética de ponto flutuante.
msdn.microsoft.com/en-us/magazine/jj891056.aspx Você encontra uma resposta fácil aqui.
Roshan Mehta 29/03

Respostas:

14

registroEu=1 1npEu=Eu=1 1nregistropEu.

pp0 0[1 1,2)xp=p0 02x

Yuval Filmus
fonte
2
Também é útil observar o truque logsumexp neste contexto: en.wikipedia.org/wiki/LogSumExp
Bitwise