A filtragem de spam, especialmente no email, foi revolucionada pelas redes neurais. Aqui estão alguns documentos que fornecem uma boa leitura sobre o assunto:
Sobre redes neurais e o futuro do spam AC Cosoi, MS Vlad, V. Sgarciu
http://ceai.srait.ro/index.php/ceai/article/viewFile/18/8
Detecção Inteligente de Filtro de Spam com Base em Palavras Usando Redes Multi-Neurais Ann Nosseir, Khaled Nagati e Islam Taj-Eddin
http://www.ijcsi.org/papers/IJCSI-10-2-1-17-21.pdf
Detecção de spam usando redes neurais adaptativas: teoria da ressonância adaptativa David Ndumiyana, Richard Gotora e Tarisai Mupamombe
http://onlineresearchjournals.org/JPESR/pdf/2013/apr/Ndumiyana%20et%20al.pdf
EDIT: A intuição básica por trás do uso de uma rede neural para ajudar na filtragem de spam é fornecer um peso aos termos com base na frequência com que eles estão associados ao spam.
As redes neurais podem ser treinadas mais rapidamente em um ambiente supervisionado - você fornece explicitamente a classificação da sentença no ambiente de conjunto de treinamento. Sem entrar no âmago da questão, a idéia básica pode ser ilustrada com estas frases:
Text = "Como a perda da patente do Viagra afetará a Pfizer", Spam = false Text = "Viagra barato compre agora", Spam = true Text = "Farmácia on-line Viagra Cialis Lipitor", Spam = true
Para uma rede neural de dois estágios, o primeiro estágio calculará a probabilidade de spam com base na existência da palavra na frase. Então, do nosso exemplo:
viagra => 66% buy => 100% Pfizer => 0% etc.
Então, para o segundo estágio, os resultados no primeiro estágio são usados como variáveis no segundo estágio:
viagra & buy => 100% Pfizer & viagra => 0%
Essa idéia básica é executada para muitas das permutações de todas as palavras em seus dados de treinamento. Os resultados finais, uma vez treinados, são basicamente apenas uma equação que, com base no contexto das palavras na frase, pode atribuir uma probabilidade de spam. Defina o limite de spam e filtre os dados acima do limite.
As listas negras não têm valor por vários motivos:
A chave para combater o spam é o monitoramento . Verifique se você tem algum tipo de interface mostrando quais itens estão na sua lista negra, com que frequência eles foram atingidos nos últimos 10 minutos / hora / dia / mês e a capacidade de adicionar e remover itens com facilidade.
Você deseja combinar vários modelos e táticas diferentes de detecção de spam. As redes neurais parecem ser uma boa sugestão, e eu recomendo analisar os padrões de comportamento do usuário, além do conteúdo. Os seres humanos normais não fazem coisas como enviar lotes de 1.000 emails a cada 30 segundos por 12 horas consecutivas.
fonte