Como faço para extrair todos os links externos de uma página da web e salvá-los em um arquivo?

11

Como faço para extrair todos os links externos de uma página da web e salvá-los em um arquivo?

Se você tiver alguma ferramenta de linha de comando, isso seria ótimo.

RogerioO
fonte

Respostas:

18

Você precisará de 2 ferramentas, lynx e awk , tente o seguinte:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Se você precisar numerar linhas, use o comando nl , tente o seguinte:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt
Ielton
fonte
Eu não acho que isso vai funcionar para URLs relativos
Sridhar Sarnobat
8

Aqui está uma melhoria na resposta de lelton: você não precisa de awk, pois o lynx tem algumas opções úteis.

lynx -listonly -nonumbers -dump http://www.google.com.br

se você quer números

lynx -listonly -dump http://www.google.com.br
Máx.
fonte
0
  1. Use Beautiful Soup para recuperar as páginas da web em questão.
  2. Use o awk para encontrar todos os URLs que não apontam para o seu domínio

Eu recomendaria Beautiful Soup sobre técnicas de raspagem de tela.

Wesley
fonte
0

se a linha de comando não for uma força, você pode usar a extensão Copy All Links Firefox.

Majid Azimi
fonte