O que é o "artigo de 2001" para bloquear "programas de recuperação automatizada" referido na página de manual do wget?

11

A wgetpágina do manual afirma isso, na seção para o --random-waitparâmetro:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Desejo obter uma cópia deste artigo para leitura e tentei várias pesquisas na Internet para determinar o artigo. No entanto, tudo o que posso encontrar com essas pesquisas é a página do manual wgethospedada em sites diferentes; e alguns outros trabalhos de pesquisa que não têm nenhuma relação com esse tópico.

Alguém sabe a qual artigo está sendo referido e onde posso obter uma cópia?

user2064000
fonte
Eu estava cavando através da lista de discussão wget e encontrei este: lists.gnu.org/archive/html/bug-wget/2015-05/msg00029.html
7171u

Respostas:

15

Mesmo que não seja uma resposta direta, git blamee git logrevele que esta seção foi introduzida no commit 2c41d783 por um committer chamado hniksic, que acaba sendo Hrvoje Niksic. Seu endereço de e-mail pode ser encontrado no ChangeLogarquivo do wget (não o publicarei aqui pelas razões óbvias). Eu sugiro perguntar diretamente, pois ele pode ser o melhor para dar uma resposta mais adequada. Enquanto isso, você pode perguntar se ele se importaria de atualizar a página de manual de acordo. ;)

Andreas Wiese
fonte
4

Eu acho que pode ser este artigo:

Criando dados significativos a partir de logs da web usando o SAS base

Há um parágrafo discutindo o bloqueio de intervalos de classe C:

Depois que o endereço IP é separado em seus componentes, a filtragem de intervalos de endereços IP é simples. Um filtro de classe B é feito contra os dois primeiros octetos, por exemplo, 168.126.xx.xx. Essa é a variável Onetwo no exemplo de código acima. Os intervalos de classe C são mais comumente usados, pois têm como alvo servidores inteiros e usam três dos quatro octetos, por exemplo, 168.126.56.xx. No exemplo de código acima, esse é o campo Três, pois Usrhost é o valor do endereço TCP / IP do log da web.

E uma menção wgetno bloqueio baseado em string do agente do usuário:

Nosso método preferido para identificação de cadeias de agentes do usuário utiliza a função de correspondência de padrão de índice. Por exemplo:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

Foi o quinto resultado no Google para "análise de log wget" para o ano de 2001 .

muru
fonte