Perguntas com a marcação «web-crawler»

227

Como solicitar ao Google que rastreie novamente meu site? [fechadas]

Fechadas. Esta pergunta não atende às diretrizes de estouro de pilha . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico do Stack Overflow. Fechado há 5 anos . Melhore esta...

seo web-crawler

216

Enviando "User-agent" usando a biblioteca Requests em Python

Desejo enviar um valor "User-agent"ao solicitar uma página da Web usando solicitações de Python. Não sei se é bom enviar isso como parte do cabeçalho, como no código abaixo: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers =...

python web-crawler python-requests

169

impeça o rsync de remover arquivos de origem inacabados

Eu tenho duas máquinas, velocidade e massa. O speed possui uma conexão rápida à Internet e está executando um rastreador que baixa muitos arquivos no disco. massa tem muito espaço em disco. Quero mover os arquivos da velocidade para a massa após o download. Idealmente, eu apenas corria: $ rsync...

storage web-crawler rsync

134

Diferença entre BeautifulSoup e Scrapy crawler?

Quero criar um site que mostre a comparação entre o preço do produto amazon e e-bay. Qual destes funcionará melhor e por quê? Estou familiarizado com o BeautifulSoup, mas não com o rastreador Scrapy

python beautifulsoup scrapy web-crawler

118

como detectar bots de mecanismo de pesquisa com php?

Como detectar os bots do mecanismo de busca usando

php web-crawler bots

108

Encontrar as camadas e os tamanhos das camadas para cada imagem Docker

Para fins de pesquisa, estou tentando rastrear o registro público do Docker ( https://registry.hub.docker.com/ ) e descobrir 1) quantas camadas uma imagem média tem e 2) os tamanhos dessas camadas para obter um ideia da distribuição. No entanto, estudei a API e as bibliotecas públicas, bem como os...

image docker web-crawler

108

TypeError: não é possível usar um padrão de string em um objeto semelhante a bytes em re.findall ()

Estou tentando aprender como buscar urls automaticamente em uma página. No código a seguir, estou tentando obter o título da página da web: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with...

python python-3.x web-crawler

107

Detectando rastreadores 'furtivos' da web

Que opções existem para detectar rastreadores da web que não desejam ser detectados? (Eu sei que as técnicas de detecção de listagem permitirão ao programador inteligente de rastreamento furtivo fazer uma aranha melhor, mas não acho que algum dia seremos capazes de bloquear rastreadores furtivos...

web-crawler

100

Como passar um argumento definido pelo usuário no scrapy spider

Estou tentando passar um argumento definido pelo usuário para um scrapy's spider. Alguém pode sugerir como fazer isso? Eu li sobre um parâmetro em -aalgum lugar, mas não tenho ideia de como

python scrapy web-crawler

97

Como encontrar todos os links / páginas em um site

É possível encontrar todas as páginas e links em QUALQUER site? Gostaria de inserir um URL e produzir uma árvore de diretórios com todos os links desse site? Eu olhei para HTTrack, mas ele baixa todo o site e eu simplesmente preciso da árvore de

directory web-crawler

94

Obtenha uma lista de URLs de um site [fechado]

Fechadas. Esta pergunta não atende às diretrizes do Stack Overflow . Atualmente não está aceitando respostas. Quer melhorar esta questão? Atualize a pergunta para que esteja no tópico do Stack Overflow. Fechado há 4 anos . Melhore esta questão...

web-crawler