Como faço para extrair todos os links externos de uma página da web e salvá-los em um arquivo?

11

Se você tiver alguma ferramenta de linha de comando, isso seria ótimo.

linux command-line RogerioO
fonte

18

Você precisará de 2 ferramentas, lynx e awk , tente o seguinte:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Se você precisar numerar linhas, use o comando nl , tente o seguinte:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Ielton
fonte

Eu não acho que isso vai funcionar para URLs relativos

Sridhar Sarnobat

8

Aqui está uma melhoria na resposta de lelton: você não precisa de awk, pois o lynx tem algumas opções úteis.

lynx -listonly -nonumbers -dump http://www.google.com.br

se você quer números

lynx -listonly -dump http://www.google.com.br

Máx.
fonte

0

Eu recomendaria Beautiful Soup sobre técnicas de raspagem de tela.

Wesley
fonte

0

se a linha de comando não for uma força, você pode usar a extensão Copy All Links Firefox.

Majid Azimi
fonte

Respostas: