Por que o Bayes Classifier é o classificador ideal?

11

É considerado o caso ideal em que a estrutura de probabilidade subjacente às categorias é conhecida perfeitamente.

Por que com o classificador Bayes alcançamos o melhor desempenho possível?

Qual é a prova formal / explicação para isso? Como sempre usamos o classificador Bayes como referência para comparar o desempenho de todos os outros classificadores.

probability classification bayesian bayes Vatsal
fonte

9

Por que com o classificador Bayes alcançamos o melhor desempenho possível? Qual é a prova formal / explicação para isso?

Normalmente, um conjunto de dados é considerado como iid samples de uma distribuição que gera seus dados. Em seguida, você constrói um modelo preditivo a partir dos dados fornecidos: dada uma amostra , você prevê a classe , enquanto a classe real da amostra é . $D$ $n$ $x_i$ $x_i$ $\hat{f}(x_i)$ $f(x_i)$

No entanto, em teoria, você pode decidir não escolher um modelo específico , mas considerar todos os modelos possíveis uma só vez e combiná-los de alguma forma em um grande modelo . $\hat{f}_\text{chosen}$ $\hat{f}$ $\hat F$

Obviamente, dados os dados, muitos dos modelos menores podem ser improváveis ou inapropriados (por exemplo, modelos que prevêem apenas um valor do alvo, mesmo que haja vários valores do alvo no seu conjunto de dados ). $D$

De qualquer forma, você deseja prever o valor alvo de novas amostras, que são desenhadas a partir da mesma distribuição que s. Uma boa medida do desempenho do seu modelo seria ou seja, a probabilidade de você prever a valor alvo verdadeiro para um amostrado aleatoriamente . $x_i$ $e$

e (model) = P [f (X) = model (X)],

$e(\text{model}) = P[f(X) = \text{model}(X)]\text{,}$

X

$X$

Usando a fórmula de Bayes, é possível calcular qual é a probabilidade de uma nova amostra ter o valor-alvo , dados os dados : $x$ $v$ $D$

P (v ∣ D) = \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$P(v\mid D) = \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$ Deve-se enfatizar que

geralmente é ou , pois é uma função determinística de , $P(v\mid \hat{f})$ $0$ $1$ $\hat{f}$ $x$
geralmente não, mas quase o tempo todo, é impossível estimar (exceto nos casos triviais mencionados acima), $P(\hat{f}\mid D)$
geralmente não, mas quase o tempo todo, o número de possíveis modelos é muito grande, para que a soma superior seja avaliada. $\hat{f}$

Portanto, é muito difícil obter / estimar na maioria dos casos. $P(v\mid D)$

Agora, prosseguimos para o classificador Optimal Bayes. Para um dado , ele prevê o valor Como esse é o valor mais provável entre todos os valores-alvo possíveis , o classificador Optimal Bayes maximiza a medida de desempenho . $x$

\hat{v} = {argmax}_{v} \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$\hat{v} = \text{argmax}_v \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$

v

$v$

e (\hat{f})

$e(\hat{f})$

Como sempre usamos o classificador Bayes como referência para comparar o desempenho de todos os outros classificadores.

Provavelmente, você usa a versão ingênua do classificador Bayes. É fácil de implementar, funciona razoavelmente bem na maioria das vezes, mas calcula apenas uma estimativa ingênua de . $P(v\mid D)$

Antoine
fonte

O classificador Bayes (bayes não ingênuo) é o mesmo que o classificador ideal bayes ???? e a probabilidade anterior?

P (v | f)

$P(v|f)$

RuiQi 25/05

@RuiQi Eu não acho que exista o classificador Bayes. Estou ciente do ingênuo classificador Bayes e do ideal classificador Bayes.

Antoine

@RuiQi é a probabilidade de que uma amostra a ser classificada caia na classe se usarmos o modelo preditivo . Eu acho que você pode chamá-lo de probabilidade anterior.

P (v ∣ \hat{f})

$P(v\mid \hat{f})$

v

$v$

\hat{f}

$\hat{f}$

Antoine

0

$C_T$ $C_P$

$X$ $X$ $x$

P (C_{T} = C_{P}) = \int_{all possible X} f (x) P (C_{T} = C_{P} | x) d x

$P(C_T=C_P) = \int_{\text{all possible $X$}} f(x)P(C_T=C_P|x) \text{d}x$

$f(x)$ $X$

$x$

$x$ $P(C_T=C_P|x)$ $x$

Sextus Empiricus
fonte

Por que o Bayes Classifier é o classificador ideal?

Respostas: