Como despejar um MediaWiki para uso offline?

16

Gostaria de poder criar uma versão offline de um site MediaWiki semanalmente.

A extensão DumpHTML realmente faz o que eu quero, pois despeja todos os artigos e arquivos de mídia, mas não consigo ver nenhum índice de todos os artigos que despejou, portanto não consigo navegar no despejo.

Lendo sobre o recurso de despejo XML que o MediaWiki possui, pergunto-me se seria possível usar um programa para exibir esses arquivos ou talvez convertê-los em html?

Ou existem outras maneiras de criar uma versão offline de um site do MediaWiki?

Sandra Schlichting
fonte
Você realmente precisa de um índice? Basta começar em Main Pagee siga os links de lá.
Ilmari Karonen
Aqui estão as instruções de Cam Webb para criar uma versão estática de um site do MediaWiki. Aqui estão os meus , caso ajudem alguém. Ambos fornecem links para o resultado estático (o meu aqui ).
Michael Allan

Respostas:

8

Você pode usar uma ferramenta de webcrawler que salvará o site como arquivos HTML. Todos os links serão convertidos, para que você possa abrir a página principal, digamos, clicar em links e acessar todo o site.

Existem várias dessas ferramentas disponíveis. Eu uso o wget , que é baseado em linha de comando e tem milhares de opções, então não é muito amigável. No entanto, é bastante poderoso.

Por exemplo, aqui está a linha de comando que eu usei para despejar meu próprio site mediawiki. Sugiro que você entenda cada opção antes de usá-la:

"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki
paulmorriss
fonte
10

Você pode pegar o site de despejos-pages-articles.xml.bz2 da Wikimedia e processá-los com o WikiTaxi (faça o download no canto superior esquerdo). A ferramenta Wikitaxi Import criará um .taxiarquivo (em torno de 15 GB para a Wikipedia) fora do .bz2arquivo. Esse arquivo será usado pelo programa WikiTaxi para pesquisar artigos. A experiência é muito semelhante à do navegador.

Ou você pode usar o Kiwix , mais rápido de configurar, porque também fornece os dumps ( .zimarquivos) já processados . Como o comentário especifica para mwofflinerpoder usar outros sites do MediaWiki para kiwix , ele pode não funcionar com todos, pois podem ter diferenças personalizadas, mas é a única variante que encontrei.

Levar material da Wikimedia wgetnão é uma boa prática. Se muitas pessoas fizerem isso, poderá inundar os sites com solicitações.


Edite posteriormente para o caso em que você deseja também as imagens offline:

Projeto XOWA

Se você deseja um espelho completo da Wikipedia (incluindo imagens) da formatação HTML completa intacta que faça o download em aproximadamente 30 horas , você deve usar:

A Wikipedia em inglês possui muitos dados. Existem 13,9 milhões de páginas com mais de 20,0 GB de texto e mais de 3,7 milhões de miniaturas.

XOWA :

Configurar tudo isso no seu computador não será um processo rápido ... A importação em si exigirá 80 GB de espaço em disco e cinco horas de tempo de processamento para a versão em texto. Se você também deseja imagens, os números aumentam para 100 GB de espaço em disco e 30 horas de tempo de processamento. No entanto, quando terminar, você terá uma cópia completa e recente da Wikipedia em inglês com imagens que podem caber em um cartão SD de 128GB.

Mas a versão offline é muito parecida com a versão online, inclui fotos etc.: (testei o artigo abaixo completamente offline) insira a descrição da imagem aqui


Edite posteriormente se nenhuma das opções acima se aplicar:

Se o wiki não faz parte da Wikimedia ou não possui um despejo, existe um projeto no github que baixa esse wiki usando sua API:

WikiTeam - Nós arquivamos wikis, da Wikipedia aos menores wikis

Eduard Florinescu
fonte
1
No caso de despejar uma instalação personalizada do mediawiki, o XOWA é capaz de fazer isso (alguns problemas podem existir), após o artigo xowa.org/home/wiki/App/Wiki_types/Wikia.com é bastante útil. O uso do Kiwix com wikis personalizados ainda está para ser testado (é necessário despejar o wiki com github.com/kiwix/mwoffliner ou alguma outra ferramenta primeiro)
escalator