Eu preciso de um programa para obter todas as páginas da web em um site. O site é chinês, quero divulgar todas essas palavras em inglês. Então eu posso extrair todas as informações que preciso. Alguma idéia para isso? Existe algum software para esse fim?
Se NÃO, gostaria de escrever um. Alguma sugestão?
Muito obrigado.
Respostas:
Use, por exemplo,
wget -r http://site.to.copy.com
para recuperar recursivamente todas as páginas da web na sua máquina local (espero que não seja muito grande ...), então você poderá pesquisar ou fazer o que quiser com os arquivos posteriormente.fonte
wget
(página de manual aqui ) também pode servir como rastreador, veja sua--recursive
opção.fonte
Você praticamente descreve um rastreador da Web (algo que pega uma página, procura todos os links, os segue etc.). Já existem implementações de rastreadores, ferramentas que agem como rastreadores (como o wget) e perguntas relacionadas a eles aqui no Stack Overflow. Por exemplo...
https://stackoverflow.com/questions/102631/how-to-write-a-crawler
Depois de ter algo que pode visitar cada página, você precisará de um código que analise a página e procure o texto do seu interesse.
fonte
Não é uma solução PHP, mas você pode usar o navegador da Web somente texto do Lynx com as opções
-crawl
e-dump
para visitar todas as páginas de um site e despejá-las como arquivos de texto. Você pode usar um script para extrair a informação que deseja deles.fonte