A wget
página do manual afirma isso, na seção para o --random-wait
parâmetro:
Some web sites may perform log analysis to identify retrieval
programs such as Wget by looking for statistically significant
similarities in the time between requests. [...]
A 2001 article in a publication devoted to development on a popular
consumer platform provided code to perform this analysis on the
fly. Its author suggested blocking at the class C address level to
ensure automated retrieval programs were blocked despite changing
DHCP-supplied addresses.
Desejo obter uma cópia deste artigo para leitura e tentei várias pesquisas na Internet para determinar o artigo. No entanto, tudo o que posso encontrar com essas pesquisas é a página do manual wget
hospedada em sites diferentes; e alguns outros trabalhos de pesquisa que não têm nenhuma relação com esse tópico.
Alguém sabe a qual artigo está sendo referido e onde posso obter uma cópia?
wget
man
documentation
user2064000
fonte
fonte
Respostas:
Mesmo que não seja uma resposta direta,
git blame
egit log
revele que esta seção foi introduzida no commit 2c41d783 por um committer chamadohniksic
, que acaba sendo Hrvoje Niksic. Seu endereço de e-mail pode ser encontrado noChangeLog
arquivo do wget (não o publicarei aqui pelas razões óbvias). Eu sugiro perguntar diretamente, pois ele pode ser o melhor para dar uma resposta mais adequada. Enquanto isso, você pode perguntar se ele se importaria de atualizar a página de manual de acordo. ;)fonte
Eu acho que pode ser este artigo:
Criando dados significativos a partir de logs da web usando o SAS base
Há um parágrafo discutindo o bloqueio de intervalos de classe C:
E uma menção
wget
no bloqueio baseado em string do agente do usuário:Foi o quinto resultado no Google para "análise de log wget" para o ano de 2001 .
fonte