obtenha todas as páginas em um site

0

Eu preciso de um programa para obter todas as páginas da web em um site. O site é chinês, quero divulgar todas essas palavras em inglês. Então eu posso extrair todas as informações que preciso. Alguma idéia para isso? Existe algum software para esse fim?

Se NÃO, gostaria de escrever um. Alguma sugestão?

Muito obrigado.

Ryan
fonte
4
gnu.org/software/wget
jeffamaphone
spidersoft.com se nenhum wget disponível
DFectuoso

Respostas:

10

Use, por exemplo, wget -r http://site.to.copy.compara recuperar recursivamente todas as páginas da web na sua máquina local (espero que não seja muito grande ...), então você poderá pesquisar ou fazer o que quiser com os arquivos posteriormente.


fonte
O que eu ia sugerir. Por que se preocupar em construir mais uma ratoeira?
227 Carl Smotricz
2
Você pode considerar usar o sinalizador "--convert-links" também para poder navegar localmente ...
AJ.
Dependendo de quantas páginas você pretende baixar, você também pode especificar a opção --limit-rate para evitar sobrecarregar o servidor.
3

wget(página de manual aqui ) também pode servir como rastreador, veja sua --recursiveopção.

Wim
fonte
3

Você praticamente descreve um rastreador da Web (algo que pega uma página, procura todos os links, os segue etc.). Já existem implementações de rastreadores, ferramentas que agem como rastreadores (como o wget) e perguntas relacionadas a eles aqui no Stack Overflow. Por exemplo...

https://stackoverflow.com/questions/102631/how-to-write-a-crawler

Depois de ter algo que pode visitar cada página, você precisará de um código que analise a página e procure o texto do seu interesse.

Martin Peck
fonte
1

Não é uma solução PHP, mas você pode usar o navegador da Web somente texto do Lynx com as opções -crawle -dumppara visitar todas as páginas de um site e despejá-las como arquivos de texto. Você pode usar um script para extrair a informação que deseja deles.

Ken Keenan
fonte