Se eu tiver um conjunto de dados de treinamento e treinar um Classificador Naive Bayes nele, e tiver um valor de atributo com probabilidade zero. Como faço para lidar com isso se mais tarde desejar prever a classificação em novos dados? O problema é que, se houver um zero no cálculo, todo o produto se torna zero, não importando quantos outros valores eu tenha, que talvez encontrem outra solução.
Exemplo:
O produto inteiro se torna porque nos dados de treinamento o atributo TimeZone US é sempre Sim em nosso pequeno conjunto de dados de treinamento. Como posso lidar com isso? Devo usar um conjunto maior de dados de treinamento ou existe outra possibilidade de superar esse problema?
classification
naive-bayes-classifier
fragrante
fonte
fonte
Respostas:
Uma abordagem para superar esse 'problema de frequência zero' em uma configuração bayesiana é adicionar um à contagem para cada combinação de valor-classe de atributo quando um valor de atributo não ocorre com cada valor de classe. Por exemplo, digamos que seus dados de treinamento tenham a seguinte aparência:
Em seguida, você deve adicionar um a cada valor nesta tabela ao usá-lo para calcular probabilidades:
fonte