Nós estamos usando HTTRACK
para baixar um site inteiro para visualização off-line.
O problema é até baixar todo o site com o nível 4 ( -r4
) alguns links não funcionam.
Por exemplo, se você usar o httrack para capturar o site:
http://advaitasharada.sringeri.net/display/bhashya/Gita
Ele captura apenas uma parte dele, mas deixa os links do lado direito. Os outros links contendo os outros capítulos do Gita estão marcados com #fragments.
http://advaitasharada.sringeri.net/display/bhashya/Gita#BG_C02 (o link só funciona quando clicado no navegador)
- Por que não
HTTRACK
baixar todos os links? O que fazer? - Também o
search
não está funcionando. Isso leva ao domínio original do site (que precisa de conexão com a Internet).
wget
, mas não estava funcionando. Tamanho não é um problema. Eu dei-r6
eHTTRACK
baixou 6,6 GB! Deus sabe como tem tantos dados! Você poderia por favor postar owget
comando que você usou como resposta? Você já verificou que os links do lado direito do site estão funcionando?Respostas:
O site usa scripts do lado do servidor ou seja, o servidor gera páginas da web no vôo quando uma solicitação é feita. HTTRack só pode baixar páginas da web estáticas e, assim, perde as partes que são geradas em tempo real.
fonte