É possível encontrar todas as páginas e links em QUALQUER site? Gostaria de inserir um URL e produzir uma árvore de diretórios com todos os links desse site?
Eu olhei para HTTrack, mas ele baixa todo o site e eu simplesmente preciso da árvore de diretórios.
directory
web-crawler
Jonathan Lyon
fonte
fonte
Respostas:
Confira o verificador de links - ele rastreará o site (obedecendo
robots.txt
) e gerará um relatório. A partir daí, você pode criar um script de solução para criar a árvore de diretórios.fonte
robots.txt
arquivo, isso significa apenas que você pode rastrear o quanto quiser.Se você tiver o console do desenvolvedor (JavaScript) em seu navegador, poderá digitar este código em:
Abreviado:
fonte
$$
operadora? Ou isso é apenas um nome de função arbitrário, mesmo quen=ABC(''a');
eu não esteja entendendo comourls
obtém todos os elementos marcados com 'a'. Você pode explicar? Estou assumindo que não é jQuery. De qual função de biblioteca de protótipo estamos falando?$$()
é basicamente uma abreviação dedocument.querySelectorAll()
. Mais informações neste link: developer.mozilla.org/en-US/docs/Web/API/Document/…Outra alternativa pode ser
Com o
$$(
seu é ainda mais curtofonte
Se esta for uma questão de programação, eu sugiro que você escreva sua própria expressão regular para analisar todos os conteúdos recuperados. As tags de destino são IMG e A para HTML padrão. Para JAVA,
isso, junto com as classes Pattern e Matcher, deve detectar o início das tags. Adicione a tag LINK se você também quiser CSS.
No entanto, não é tão fácil quanto você pode ter pensado inicialmente. Muitas páginas da web não são bem formadas. Extrair todos os links de forma programática que o ser humano pode "reconhecer" é realmente difícil se você precisa levar em conta todas as expressões irregulares.
Boa sorte!
fonte
tente este código ....
fonte