Como posso fazer o wget baixar apenas páginas, não imagens css, etc?

10

Quero baixar um site inteiro usando o wget, mas não quero baixar imagens, vídeos etc.

eu tentei

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

mas quando faço isso, ele não baixa arquivos .php, apenas baixa os arquivos .html estáticos.

Existe uma solução para este problema com o wget?

user1126446
fonte

Respostas:

6

Você disse explicitamente ao wget para aceitar apenas arquivos com .htmlsufixo.

Supondo que as páginas php tenham .php, você pode fazer o seguinte:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Note que isso baixará o html renderizado, não a fonte do php. Se a página for suficientemente dinâmica, você poderá não obter o resultado renderizado esperado.

No entanto, sugiro que outra ferramenta, como o httrack, faça um trabalho melhor - depende exatamente do que você precisa fazer.

James Polley
fonte
3

-A pega uma lista, então -A.html, .php deve caber na conta. Você também deve procurar em -R (também é necessária uma lista de rejeições).

Forma de vida alienígena
fonte