Eu tenho um site em um servidor que é basicamente um monte de páginas HTML, imagens e sons.
Perdi minha senha para esse servidor e preciso pegar tudo o que está armazenado lá. Posso ir página por página e salvar tudo, mas o site tem mais de 100 páginas.
Estou usando o OSX. Eu tentei usar, wget
mas acho que o servidor está bloqueando isso.
Existe alguma alternativa que eu possa usar para capturar esse conteúdo?
Respostas:
Se o servidor estiver bloqueando o wget, provavelmente o fará com base no campo "User-agent:" do cabeçalho http, pois essa é a única maneira de saber em primeiro lugar. Também pode estar bloqueando seu IP, caso em que o uso de software diferente não ajudará, ou algum esquema que identifique a automação com base na rapidez com que um conjunto de solicitações é rápido (já que pessoas reais não navegam 100 páginas em 3,2 segundos) . Eu nunca ouvi falar de alguém fazendo isso, mas é possível.
Também não ouvi falar de uma maneira de desacelerar o wget, mas há uma maneira de falsificar o campo user-agent:
De acordo com a página de manual, o "User-agent:" será removido completamente, pois não é obrigatório. Se o servidor não gostar disso, tente o
--user-agent="Mozilla/5.0"
que deve ser bom o suficiente.Obviamente, ajudaria se você explicasse melhor por que "acha que o servidor está bloqueando isso". O wget diz alguma coisa ou apenas passa o tempo?
fonte
wget
tem várias opções para aguardar entre consultas, limitar a taxa ou o valor baixado. Verifique ainfo
página para detalhes.Eu costumo usar
httrack
para baixar / espelhar o conteúdo da Web de um site.Após a execução, você fica com uma estrutura de diretórios local e navegável. Por exemplo:
Ao fazer o download, você verá o seguinte tipo de saída:
Pode ser em segundo plano e / ou abortado e depois retomado. Esta é apenas a ponta do iceberg em termos de suas características. Há também uma GUI para configurar um download e monitorá-lo à medida que avança.
Há extensa documentação no
httrack
site e no Google.fonte