Gostaria de poder criar uma versão offline de um site MediaWiki semanalmente.
A extensão DumpHTML realmente faz o que eu quero, pois despeja todos os artigos e arquivos de mídia, mas não consigo ver nenhum índice de todos os artigos que despejou, portanto não consigo navegar no despejo.
Lendo sobre o recurso de despejo XML que o MediaWiki possui, pergunto-me se seria possível usar um programa para exibir esses arquivos ou talvez convertê-los em html?
Ou existem outras maneiras de criar uma versão offline de um site do MediaWiki?
Main Page
e siga os links de lá.Respostas:
Você pode usar uma ferramenta de webcrawler que salvará o site como arquivos HTML. Todos os links serão convertidos, para que você possa abrir a página principal, digamos, clicar em links e acessar todo o site.
Existem várias dessas ferramentas disponíveis. Eu uso o wget , que é baseado em linha de comando e tem milhares de opções, então não é muito amigável. No entanto, é bastante poderoso.
Por exemplo, aqui está a linha de comando que eu usei para despejar meu próprio site mediawiki. Sugiro que você entenda cada opção antes de usá-la:
fonte
Você pode pegar o site de despejos
-pages-articles.xml.bz2
da Wikimedia e processá-los com o WikiTaxi (faça o download no canto superior esquerdo). A ferramenta Wikitaxi Import criará um.taxi
arquivo (em torno de 15 GB para a Wikipedia) fora do.bz2
arquivo. Esse arquivo será usado pelo programa WikiTaxi para pesquisar artigos. A experiência é muito semelhante à do navegador.Ou você pode usar o Kiwix , mais rápido de configurar, porque também fornece os dumps (
.zim
arquivos) já processados . Como o comentário especifica paramwoffliner
poder usar outros sites do MediaWiki para kiwix , ele pode não funcionar com todos, pois podem ter diferenças personalizadas, mas é a única variante que encontrei.Levar material da Wikimedia
wget
não é uma boa prática. Se muitas pessoas fizerem isso, poderá inundar os sites com solicitações.Edite posteriormente para o caso em que você deseja também as imagens offline:
Projeto XOWA
Se você deseja um espelho completo da Wikipedia (incluindo imagens) da formatação HTML completa intacta que faça o download em aproximadamente 30 horas , você deve usar:
A Wikipedia em inglês possui muitos dados. Existem 13,9 milhões de páginas com mais de 20,0 GB de texto e mais de 3,7 milhões de miniaturas.
XOWA :
Mas a versão offline é muito parecida com a versão online, inclui fotos etc.: (testei o artigo abaixo completamente offline)
Edite posteriormente se nenhuma das opções acima se aplicar:
Se o wiki não faz parte da Wikimedia ou não possui um despejo, existe um projeto no github que baixa esse wiki usando sua API:
WikiTeam - Nós arquivamos wikis, da Wikipedia aos menores wikis
fonte