Por favor, permita-me fazer uma pergunta básica. Entendo a mecânica de Naive Bayes para variáveis discretas e posso refazer os cálculos "à mão". (código de HouseVotes84 todo o caminho abaixo).
No entanto - estou lutando para ver como a mecânica funciona para variáveis contínuas (código de exemplo abaixo). Como o pacote calcula as probabilidades condicionais [, 1]
e [, 2]
na tabela abaixo? Como qualquer valor X individual é único, ele cria um intervalo em torno de cada ponto e calcula frequências relativas dentro desses intervalos (por exemplo, se o ponto for +0,311, avalia a incidência de manchas azuis e laranja em, por exemplo, um intervalo de 0,1 e +0,5?) Isso pode ser uma pergunta básica - desculpas se sim.
Mesa
A-priori probabilities:
Y
blue orange
0.5 0.5
Conditional probabilities:
values
Y [,1] [,2]
blue 0.08703793 0.9238799
orange 1.33486433 0.9988389
Código
blue=rep("blue",50); orange=rep("orange",50); colour=c(blue,orange); values1=rnorm(50,0,1); values2=rnorm(50,1,1); values=c(values1,values2)
df=data.frame(colour,values)
(model <- naiveBayes(colour ~ ., data = df))
(predict(model, df[1:10,]))
(predict(model, df[1:10,], type = "raw"))
(pred <- predict(model, df))
table(pred, df$colour)
## Categorical data only:
library(e1071)
data(HouseVotes84, package = "mlbench")
HouseVotes84=HouseVotes84[,1:3]
(model <- naiveBayes(Class ~ ., data = HouseVotes84))
(predict(model, HouseVotes84[1:10,]))
(predict(model, HouseVotes84[1:10,], type = "raw"))
(pred <- predict(model, HouseVotes84))
table(pred, HouseVotes84$Class)
fonte