Minha mãe está fazendo um curso on-line para ser uma espécie de bibliotecária; neste curso, eles abrangem pesquisas booleanas, para que possam pesquisar bancos de dados de maneira eficiente; no entanto, ela tem uma pergunta que soa algo como isto:
A pesquisa "x OR y" resultará em 105 000 ocorrências, enquanto uma pesquisa por apenas x resultará em 80 000 ocorrências, e uma pesquisa apenas em y obterá 35 000 ocorrências. Por que a pesquisa "x OR y" fornece 105.000 hits, quando as pesquisas individuais combinadas fornecem 115.000 hits?
Para mim, isso soou estranho, então eu testei isso sozinho, usando as palavras bacon e sanduíche .
- Apenas o bacon produziu 179 000 000 resultados
- Apenas sanduíche produziu 312 000 000 resultados
- bacon OU sanduíche deu 491 000 000 resultados
Mas, para mim, soma: 179 000 000 (bacon) + 312 000 000 (sanduíche) = 491 000 000 (bacon OU sanduíche)
Por que uma consulta OR poderia resultar em menos ocorrências do que as duas consultas individuais combinadas?
Respostas:
Dica: A pesquisa x AND y resultará em 10 000 ocorrências.
fonte
O princípio da contagem que se aplica aqui é a inclusão-exclusão .
Para fazer os números funcionarem,deve ser 10000.|X∩Y|
Um diagrama de Venn pode ser mais convincente para alguém que pode ser intimidado pela notação.
fonte
Documento 1: O gato está em cima da mesa
Documento 2: Meu gato é preto
Documento 3: O cachorro está embaixo da mesa
Documento 4: Qual é o nome do seu gato?
Documento 5: esta é uma foto em preto e branco
Pesquisa por gato : documentos retornados são 1,2,4 (3 documentos retornados)
Pesquisa por preto : documentos retornados são ...
Pesquisa por gato OU preto : documentos retornados são ...
:-D :-D
fonte
Em palavras simples:
A pesquisa por X fornece n respostas.
A busca por Y fornece m respostas.
A pesquisa por X e Y fornece p respostas.
Ao procurar X OU Y, a pesquisa é interrompida assim que encontra X ou Y. Portanto, se houver um X antes de um Y, esse Y não será contado na pesquisa de X OU Y. Portanto, sua pesquisa por X OU Y fornecerá respostas n + m - p.
É importante observar que os resultados serão os mesmos, se você fizer duas pesquisas ou apenas uma. Só que, ao somar as duas pesquisas, alguns documentos são contados duas vezes.
fonte
Imagine que você tem apenas um documento. Este é o Documento # 1 com isso:
Agora imagine que você tem uma função de pesquisa que pode fornecer todos os documentos com base em uma palavra-chave:
Observe que o número de documentos nos dois casos é 1. Agora, se você possui uma função de pesquisa que fornece o número de documentos que correspondem a uma ou mais das palavras-chave fornecidas:
Quando você adiciona o número de documentos que contêm
X
o número de documentos que contêmY
, isso faz com que você conte o mesmo documento duas vezes. No seu caso, isso aconteceu10000
vezes como indicado acima :)fonte