Se duas classes e têm distribuição normal com parâmetros conhecidos ( , como os seus meios e , são as suas covariâncias) como podemos calcular erro do classificador Bayes para eles teoricamente?
Suponha também que as variáveis estejam no espaço N-dimensional.
Nota: Uma cópia desta pergunta também está disponível em https://math.stackexchange.com/q/11891/4051 que ainda não foi respondida. Se alguma dessas perguntas for respondida, a outra será excluída.
Respostas:
Não há formulário fechado, mas você pode fazê-lo numericamente.
Como um exemplo concreto, considere dois gaussianos com os seguintes parâmetros
O limite ideal do classificador de Bayes corresponderá ao ponto em que duas densidades são iguais
Como seu classificador selecionará a classe mais provável em todos os pontos, você precisará integrar a densidade que não é a mais alta para cada ponto. Para o problema acima, corresponde aos volumes das seguintes regiões
Você pode integrar duas partes separadamente usando algum pacote de integração numérica. Para o problema acima, eu
0.253579
uso o seguinte código do Mathematicafonte
Parece que você pode fazer isso de duas maneiras, dependendo de quais suposições do modelo você está feliz em fazer.
Abordagem Generativa
Assumindo um modelo generativo para os dados, você também precisa conhecer as probabilidades anteriores de cada classe para obter uma declaração analítica do erro de classificação. Consulte Análise Discriminante para obter o limite ideal de decisão de forma fechada e calcule as áreas do lado errado para cada classe para obter as taxas de erro.
Suponho que isso é a abordagem pretendida pela sua invocação do classificador Bayes, que só é definido quando tudo sobre o processo de geração de dados é especificado. Como isso raramente é possível, vale sempre a pena considerar a
Abordagem de discriminação
Se você não deseja ou não pode especificar as probabilidades da classe anterior, pode aproveitar o fato de que a função discriminante pode, em muitas circunstâncias (aproximadamente, distribuições condicionais da classe da família exponencial) ser modelada diretamente por um modelo de regressão logística. O cálculo da taxa de erro é então o do modelo de regressão logística relevante.
Para uma comparação de abordagens e uma discussão sobre taxas de erro, Jordan 1995 e Jordan 2001 e referências podem ser interessantes.
fonte
Aqui você pode encontrar várias pistas para sua pergunta, talvez não exista a resposta completa, mas certamente partes muito valiosas dela. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2766788/
fonte
Na classificação com classes balanceadas, a taxa de erro de Bayes (BER) é exatamente igual a , onde é a distância total de variação entre as distribuições condicionais + ve e -ve dos recursos. Veja o Teorema 1 deste artigo .(1−TV)/2 TV
Para concluir, não é difícil encontrar boas referências computando a TV entre distribuições gaussianas multivariadas.
fonte