Alternativas ao wget

12

Eu tenho um site em um servidor que é basicamente um monte de páginas HTML, imagens e sons.

Perdi minha senha para esse servidor e preciso pegar tudo o que está armazenado lá. Posso ir página por página e salvar tudo, mas o site tem mais de 100 páginas.

Estou usando o OSX. Eu tentei usar, wgetmas acho que o servidor está bloqueando isso.

Existe alguma alternativa que eu possa usar para capturar esse conteúdo?

Cao espacial
fonte
Se você tiver acesso físico ao servidor, inicialize no modo de usuário único e recupere sua senha. debuntu.org/…
spuder 17/08/13

Respostas:

14

Se o servidor estiver bloqueando o wget, provavelmente o fará com base no campo "User-agent:" do cabeçalho http, pois essa é a única maneira de saber em primeiro lugar. Também pode estar bloqueando seu IP, caso em que o uso de software diferente não ajudará, ou algum esquema que identifique a automação com base na rapidez com que um conjunto de solicitações é rápido (já que pessoas reais não navegam 100 páginas em 3,2 segundos) . Eu nunca ouvi falar de alguém fazendo isso, mas é possível.

Também não ouvi falar de uma maneira de desacelerar o wget, mas há uma maneira de falsificar o campo user-agent:

wget --user-agent=""

De acordo com a página de manual, o "User-agent:" será removido completamente, pois não é obrigatório. Se o servidor não gostar disso, tente o --user-agent="Mozilla/5.0"que deve ser bom o suficiente.

Obviamente, ajudaria se você explicasse melhor por que "acha que o servidor está bloqueando isso". O wget diz alguma coisa ou apenas passa o tempo?

Cachinhos Dourados
fonte
Oh sim! Obrigado. Eu perdi isso na ajuda do wget. Está funcionando agora!!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog
5
wgettem várias opções para aguardar entre consultas, limitar a taxa ou o valor baixado. Verifique a infopágina para detalhes.
Stéphane Chazelas
6

Eu costumo usar httrackpara baixar / espelhar o conteúdo da Web de um site.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Após a execução, você fica com uma estrutura de diretórios local e navegável. Por exemplo:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

Ao fazer o download, você verá o seguinte tipo de saída:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Pode ser em segundo plano e / ou abortado e depois retomado. Esta é apenas a ponta do iceberg em termos de suas características. Há também uma GUI para configurar um download e monitorá-lo à medida que avança.

Há extensa documentação no httracksite e no Google.

slm
fonte