Eu tenho lido sobre a filtragem bayesiana de spam e acho que entendo a teoria, mas não vejo por que essa abordagem é necessária para calcular a probabilidade de uma mensagem ser spam, já que ela contém uma determinada palavra.
Se já tivermos um conjunto de mensagens classificadas pelo usuário como 'spam' ou 'presunto' e recebermos uma nova mensagem (contendo a palavra escolhida) que queremos classificar, então certamente tudo o que precisamos fazer é dividir o número de mensagens de spam que contêm a palavra, pelo número total de mensagens que contêm a palavra ... Por que todas as equações?
algorithms
math
email
codebox
fonte
fonte
Respostas:
Tudo bem, primeiro, não há apenas evidências positivas, mas também evidências negativas. Algumas palavras tornam muito provável que uma mensagem de email seja spam, outras tornam real. Outras palavras tornam muito provável que uma mensagem seja spam por sua ausência , enquanto outras têm o efeito oposto. Por exemplo, se você pesquisa a drosophila para ganhar a vida e se corresponde frequentemente a colegas sobre ela, a presença desse termo é quase como uma senha, porque nenhuma campanha de correio em massa poderá personalizar seus textos de acordo com seus hábitos - seria destruir as economias de escala que tornam o spam viável em primeiro lugar.
Além disso, o desempenho de um filtro não pode ser medido com apenas uma métrica. Detectar spam é muito fácil, mesmo trivial, se você simplesmente classificar tudo como spam - mas os falsos positivos (detectar email real como spam) são intoleravelmente altos. A detecção de nada resolve esse problema, mas os falsos negativos (classificando as amostras ruins como boas) tornam sua vida miserável. Um bom filtro deve atingir bons valores em ambas as contagens, o que o torna muito mais complicado do que apenas um detector super sensível de alguma coisa.
Portanto, desde o início, você não possui apenas uma 'Lista de palavrões', mas pelo menos quatro listas, e não apenas um critério, mas pelo menos dois. Até agora, a filtragem bayesiana é realmente o método mais simples que faz isso bem. Se você encontrar um melhor, por todos os meios, vamos ouvi-lo.
fonte