Como o Naive Bayes trabalha com variáveis ​​contínuas?

14

Para meu entendimento (muito básico), Naive Bayes estima probabilidades com base nas frequências de classe de cada recurso nos dados de treinamento. Mas como calcula a frequência de variáveis ​​contínuas? E ao fazer previsões, como classifica uma nova observação que pode não ter os mesmos valores de qualquer observação no conjunto de treinamento? Utiliza algum tipo de medida de distância ou encontra o 1NN?

xyy
fonte
Aqui está uma comparação lado a lado entre Naive Bayes discreto e contínuo: datascience.stackexchange.com/a/47031/67328
Esmailian

Respostas:

10

Existem muitas maneiras de executar a classificação ingênua de Bayes (NBC). Uma técnica comum na NBC é recodificar os valores dos recursos (variáveis) em quartis, de modo que valores inferiores ao percentil 25 sejam atribuídos a 1, 25 a 50º a 2, 50 a 75º a 3 e superiores ao percentil 75 a 4. Assim, um único objeto depositará uma contagem no compartimento Q1, Q2, Q3 ou Q4. Os cálculos são feitos apenas nesses compartimentos categóricos. As contagens de compartimento (probabilidades) são baseadas no número de amostras cujos valores variáveis ​​caem dentro de um determinado compartimento. Por exemplo, se um conjunto de objetos tiver valores muito altos para o recurso X1, isso resultará em muitas contagens no compartimento para Q4 de X1. Por outro lado, se outro conjunto de objetos tiver valores baixos para o recurso X1, esses objetos depositarão muitas contagens na bandeja para Q1 do recurso X1.

Na verdade, não é um cálculo muito inteligente, é uma maneira de discretizar valores contínuos para discretos e explorar a partir daí. O índice de Gini e o ganho de informações podem ser facilmente calculados após discretização para determinar quais recursos são mais informativos, ou seja, max (Gini).

No entanto, esteja ciente de que existem muitas maneiras de executar a NBC e muitas são bem diferentes umas das outras. Então, você só precisa indicar qual deles implementou em uma palestra ou artigo.

NXG Logic
fonte
2

O coração de Naive Bayes é a heróica suposição condicional:

P(xX,C)=P(xC)

De forma alguma deve ser discreto. Por exemplo, Gaussian Naive Bayes assume que cada categoria tem uma média e variância diferentes: densidade .C p ( x C = i ) = ϕ ( μ i , σ 2 i )xCp(xC=i)=ϕ(μi,σi2)

Existem diferentes maneiras de estimar os parâmetros, mas geralmente é possível:

  • Use probabilidade máxima com dados rotulados. (No caso de distribuição normal, as estimativas de máxima verossimilhança da média e variância são basicamente a média da amostra e a variação da amostra.)
  • Algo como o algoritmo EM com dados não rotulados.
Matthew Gunn
fonte