Implementação de Naive Bayes

Estou implementando um algoritmo Naive Bayes para categorização de texto com suavização de Laplacian. O problema que estou tendo é que a probabilidade se aproxima de zero porque estou multiplicando muitas frações pequenas. Portanto, a probabilidade acaba rendendo zero. Isso ocorre porque há várias palavras nos documentos e nos conjuntos de treinamento.

Por esse motivo, não sou capaz de categorizar os textos. Existe uma maneira de contornar esse problema? Estou fazendo algo errado na minha implementação?

machine-learning natural-language-processing floating-point numerical-algorithms sam
fonte

... Você pode evitar a aritmética de ponto flutuante.

msdn.microsoft.com/en-us/magazine/jj891056.aspx Você encontra uma resposta fácil aqui.

Roshan Mehta 29/03

Respostas:

registro \prod_{Eu = 1 1}^{n} p_{Eu} = \sum_{Eu = 1 1}^{n} registro p_{Eu} .

$\log \prod_{i=1}^n p_i = \sum_{i=1}^n \log p_i.$

$p$ $p_0 \in [1,2)$ $x$ $p = p_0 2^x$

Yuval Filmus
fonte

Também é útil observar o truque logsumexp neste contexto: en.wikipedia.org/wiki/LogSumExp

Bitwise