Estou tendo uma string HTML e quero descobrir se uma palavra fornecida é relevante nessa string.
A relevância pode ser medida com base na frequência do texto.
Um exemplo para ilustrar meu problema:
this is an awesome bike store
bikes can be purchased online.
the bikes we own rock.
check out our bike store now
Agora eu quero testar algumas outras palavras:
bike repairs
dog poo
bike repairs
deve ser marcado como relevante, ao passo dog poo
que não deve ser marcado como relevante.
Questões:
- Como isso poderia ser feito?
- Como filtrar palavras ambíguas como
in
ouor
Obrigado por suas idéias!
Eu acho que é algo que o Google faz para descobrir quais palavras-chave são relevantes para um site. Basicamente, estou tentando reproduzir seus rankings na página.
machine-learning
data-mining
Hendrik
fonte
fonte
Respostas:
Esse é um esboço do processo de recuperação de informações
Introdução à recuperação de informações de Christopher D. Manning, Prabhakar Raghavan e Hinrich Schütze é um livro muito bom para começar em RI.
Ou simplesmente use o Apache Solr para obter tudo o que você precisa imediatamente (ou o Apache Lucene , usado pelo Solr, para criar seu próprio aplicativo)
fonte
Há muito tempo, lembro-me de jogar com o Elastic Search (o site agora é muito diferente do que me lembro). Há algumas coisas sobre como lidar com a linguagem humana aqui: http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/languages.html
Esteja avisado de que a pesquisa Elastic é como uma grande bazuca para o seu problema. Se o seu problema for muito simples, talvez você queira ir do zero. Existem alguns documentos na web sobre isso.
fonte