Estou tentando baixar dois sites para inclusão em um CD:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
O problema que estou tendo é que esses dois são wikis. Então, ao baixar com, por exemplo:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
Recebo muitos arquivos porque também segue links como ...? Action = edit ...? Action = diff & version = ...
Alguém sabe uma maneira de contornar isso?
Eu só quero as páginas atuais, sem imagens, sem diferenças etc.
PS:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Isso funcionou para berkeley, mas o boinc-wiki.info ainda está me causando problemas: /
PPS:
Recebi o que parece ser as páginas mais relevantes com:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
Respostas:
(
--reject-type posix
por padrão). Funciona apenas para versões recentes (> = 1.14) dowget
porém, de acordo com outros comentários.Lembre-se de que você pode usar
--reject-regex
apenas uma vez porwget
chamada. Ou seja, você precisa usar|
em uma única regex se desejar selecionar em várias regex:fonte
wget --reject-regex '\?' http://example.com
é suficiente.A documentação para o wget diz:
Parece que essa funcionalidade está na mesa há algum tempo e nada foi feito com ela.
Eu não o usei, mas o httrack parece ter um conjunto de recursos de filtragem mais robusto que o wget e pode ser mais adequado ao que você está procurando (leia sobre filtros aqui http://www.httrack.com/html /fcguide.html ).
fonte
A nova versão do wget (v.1.14) resolve todos esses problemas.
Você precisa usar a nova opção
--reject-regex=....
para manipular seqüências de caracteres de consulta.Observe que eu não consegui encontrar o novo manual que inclui essas novas opções, então você deve usar o comando help
wget --help > help.txt
fonte
Pavuk deve ser capaz de fazê-lo:
http://pavuk.sourceforge.net/man.html#sect39
Exemplo do Mediawiki:
fonte
Parece que você está tentando evitar o download de páginas especiais do MediaWiki. Resolvi esse problema uma vez evitando a
index.php
página:No entanto, o wiki usou o URLS como visto na Wikipedia (
http://<wiki>/en/Theme
) e não o padrão que vi em outros lugares (http://<wiki>/index.php?title=Theme
). Como o link que você forneceu usa URLs no padrão Wikipedia, acho que essa solução também pode funcionar para você.fonte
'-R rejlist --reject rejlist' Especifique listas separadas por vírgula de sufixos ou padrões de nomes de arquivos para aceitar ou rejeitar (consulte Tipos de arquivos). Observe que, se algum dos caracteres curinga, '*', '?', '[' Ou ']' aparecer em um elemento de acclist ou rejlist, ele será tratado como um padrão, e não como um sufixo.
Os padrões são provavelmente o que você deseja. Não tenho certeza de quão sofisticados são os padrões, mas você pode tentar aceitar apenas determinados arquivos ou bloquear:
Aceitar:
Edit: nvm à luz do outro post.
fonte