Eu tenho um site legado bastante grande, com literalmente milhares de PDFs que às vezes são contabilizados em um banco de dados, mas geralmente são apenas links na página e são armazenados na maioria dos diretórios do site.
Eu escrevi um rastreador php para seguir todos os links do meu site e depois comparo isso com um despejo da estrutura de diretórios, mas há algo mais fácil?
site-maintenance
web-crawlers
dead-links
MrChrister
fonte
fonte
Respostas:
Eu usei o Link Sleuth do Xenu . Funciona muito bem, mas não faça DOS!
fonte
Se você estiver usando o Windows 7, a melhor ferramenta é o SEO Toolkit 1.0 do IIS7. É gratuito e você pode baixá-lo gratuitamente.
A ferramenta examinará qualquer site e informará onde estão todos os links mortos, quais páginas demoram para carregar, quais páginas têm títulos ausentes, títulos duplicados, o mesmo para palavras-chave e descrições e quais páginas quebraram o HTML.
fonte
Experimente a ferramenta de código aberto do W3C, o Link Checker . Você pode usá-lo online ou instalá-lo localmente
fonte
Eu sou um grande fã do linklint para verificar sites estáticos grandes, se você tiver uma linha de comando unix (usei no linux, MacOS e FreeBSD). Consulte o site para obter instruções de instalação. Depois de instalado, crio um arquivo chamado
check.ll
e faço:Aqui está a aparência do meu arquivo check.ll
Isso rastreia
www.example.com
e gera arquivos HTML com relatórios com referência cruzada para o que está quebrado, ausente etc.fonte
Existem vários produtos da Microsys , especialmente o A1 Sitemap Generator e o A1 Website Analyzer que rastrearão seu site e informarão tudo o que você possa imaginar sobre ele.
Isso inclui links quebrados, mas também uma exibição em tabela de todas as suas páginas, para que você possa comparar itens como tags idênticas <title> e meta description, links nofollow, meta noindex em páginas da web e muitas doenças que precisam apenas de olhos atentos e uma mão rápida para consertar.
fonte
O Link Examiner também é um freeware muito bom para a sua necessidade.
fonte