Por que o Bayes Classifier é o classificador ideal?

11

É considerado o caso ideal em que a estrutura de probabilidade subjacente às categorias é conhecida perfeitamente.

Por que com o classificador Bayes alcançamos o melhor desempenho possível?

Qual é a prova formal / explicação para isso? Como sempre usamos o classificador Bayes como referência para comparar o desempenho de todos os outros classificadores.

Vatsal
fonte

Respostas:

9

Por que com o classificador Bayes alcançamos o melhor desempenho possível? Qual é a prova formal / explicação para isso?

Normalmente, um conjunto de dados é considerado como iid samples de uma distribuição que gera seus dados. Em seguida, você constrói um modelo preditivo a partir dos dados fornecidos: dada uma amostra , você prevê a classe , enquanto a classe real da amostra é .Dnxixif ( x i ) f ( x i )f^(xi)f(xi)

No entanto, em teoria, você pode decidir não escolher um modelo específico , mas considerar todos os modelos possíveis uma só vez e combiná-los de alguma forma em um grande modelo .f^chosen f Ff^F^

Obviamente, dados os dados, muitos dos modelos menores podem ser improváveis ​​ou inapropriados (por exemplo, modelos que prevêem apenas um valor do alvo, mesmo que haja vários valores do alvo no seu conjunto de dados ).D

De qualquer forma, você deseja prever o valor alvo de novas amostras, que são desenhadas a partir da mesma distribuição que s. Uma boa medida do desempenho do seu modelo seria ou seja, a probabilidade de você prever a valor alvo verdadeiro para um amostrado aleatoriamente .xie

e(model)=P[f(X)=model(X)],
X

Usando a fórmula de Bayes, é possível calcular qual é a probabilidade de uma nova amostra ter o valor-alvo , dados os dados :xvD

P(vD)=f^P(vf^)P(f^D).
Deve-se enfatizar que

  • geralmente é ou , pois é uma função determinística de ,P(vf^)01f xf^x
  • geralmente não, mas quase o tempo todo, é impossível estimar (exceto nos casos triviais mencionados acima),P(f^D)
  • geralmente não, mas quase o tempo todo, o número de possíveis modelos é muito grande, para que a soma superior seja avaliada.f^

Portanto, é muito difícil obter / estimar na maioria dos casos.P(vD)

Agora, prosseguimos para o classificador Optimal Bayes. Para um dado , ele prevê o valor Como esse é o valor mais provável entre todos os valores-alvo possíveis , o classificador Optimal Bayes maximiza a medida de desempenho .xv = argmax v Σ f P ( v | f ) P ( F | D ) . v e ( f )

v^=argmaxvf^P(vf^)P(f^D).
ve(f^)

Como sempre usamos o classificador Bayes como referência para comparar o desempenho de todos os outros classificadores.

Provavelmente, você usa a versão ingênua do classificador Bayes. É fácil de implementar, funciona razoavelmente bem na maioria das vezes, mas calcula apenas uma estimativa ingênua de .P(vD)

Antoine
fonte
O classificador Bayes (bayes não ingênuo) é o mesmo que o classificador ideal bayes ???? e a probabilidade anterior? P(v|f)
RuiQi 25/05
@RuiQi Eu não acho que exista o classificador Bayes. Estou ciente do ingênuo classificador Bayes e do ideal classificador Bayes.
Antoine
@RuiQi é a probabilidade de que uma amostra a ser classificada caia na classe se usarmos o modelo preditivo . Eu acho que você pode chamá-lo de probabilidade anterior. v fP(vf^)vf^
Antoine
0

CTCP

XXx

P(CT=CP)=all possible Xf(x)P(CT=CP|x)dx

f(x)X

x

xP(CT=CP|x)x

Sextus Empiricus
fonte