Como lidar com um fator zero no cálculo do Naive Bayes Classifier?

Se eu tiver um conjunto de dados de treinamento e treinar um Classificador Naive Bayes nele, e tiver um valor de atributo com probabilidade zero. Como faço para lidar com isso se mais tarde desejar prever a classificação em novos dados? O problema é que, se houver um zero no cálculo, todo o produto se torna zero, não importando quantos outros valores eu tenha, que talvez encontrem outra solução.

Exemplo:

$P(x|spam=yes) = P(TimeZone = US | spam=yes) \cdot P(GeoLocation = EU | spam = yes) \cdot ~ ... ~ = 0.004$

$P(x|spam=no) = P(TimeZone = US | spam=no) \cdot P(GeoLocation = EU | spam = no) \cdot ~ ... ~ = 0$

O produto inteiro se torna porque nos dados de treinamento o atributo TimeZone US é sempre Sim em nosso pequeno conjunto de dados de treinamento. Como posso lidar com isso? Devo usar um conjunto maior de dados de treinamento ou existe outra possibilidade de superar esse problema? $0$

classification naive-bayes-classifier fragrante
fonte

Se você receber um valor de atributo discreto, sua probabilidade não pode ser zero, por definição.

Paul

por que adicionamos 1 em 0 problema de frequência, qual é a lógica por trás disso, por que não adicionamos outro número

Aftab Hussaiin

Respostas:

Uma abordagem para superar esse 'problema de frequência zero' em uma configuração bayesiana é adicionar um à contagem para cada combinação de valor-classe de atributo quando um valor de atributo não ocorre com cada valor de classe. Por exemplo, digamos que seus dados de treinamento tenham a seguinte aparência:

\begin{array}{ccc} Spam = y e s & Spam = n o \\ Fuso horário = você S & 10 & 5 \\ Fuso horário = E você & 0 0 & 0 0 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 10 & 5 \\ \hline \text{TimeZone} = EU & 0 & 0 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{10}{10} = 1$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{0}{10} = 0$

Em seguida, você deve adicionar um a cada valor nesta tabela ao usá-lo para calcular probabilidades:

\begin{array}{ccc} Spam = y e s & Spam = n o \\ Fuso horário = você S & 11 & 6 \\ Fuso horário = E você & 1 & 1 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 11 & 6 \\ \hline \text{TimeZone} = EU & 1 & 1 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{11}{12}$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{1}{12}$

timleathart
fonte

De fato. Observe que em algum momento você pode adicionar outros valores que não um. Para obter detalhes, consulte en.wikipedia.org/wiki/Additive_smoothing

DaL