Infelizmente, nosso provedor de hospedagem sofreu 100% de perda de dados, por isso perdi todo o conteúdo de dois sites de blog hospedados:
(Sim, sim, eu absolutamente deveria ter feito backups externos completos. Infelizmente, todos os meus backups estavam no próprio servidor. Portanto, salve a palestra; você está 100% absolutamente certo, mas isso não me ajuda no momento. Vamos mantenha o foco na questão aqui!)
Estou iniciando o processo lento e doloroso de recuperar o site dos caches do rastreador da web.
Existem algumas ferramentas automatizadas para recuperar um site dos caches da internet web spider (Yahoo, Bing, Google etc.), como Warrick , mas tive alguns resultados ruins usando isso:
- Meu endereço IP foi rapidamente banido do Google por usá-lo
- Eu recebo muitos erros 500 e 503 e "aguardando 5 minutos ..."
- Por fim, posso recuperar o conteúdo do texto mais rapidamente manualmente
Tive uma sorte muito melhor usando uma lista de todas as postagens do blog, clicando no cache do Google e salvando cada arquivo individual como HTML. Enquanto há uma série de posts, não há que muitos, e eu acho que mereço alguma auto-flagelação por não ter uma melhor estratégia de backup. De qualquer forma, o importante é que tive sorte em obter o texto da postagem do blog dessa maneira e, definitivamente, sou capaz de extrair o texto das páginas da Web dos caches da Internet. Com base no que fiz até agora, estou confiante de que posso recuperar todo o texto e comentários perdidos da postagem do blog .
No entanto, as imagens que acompanham cada postagem do blog estão se mostrando ... mais difíceis.
Alguma dica geral para recuperar páginas de sites de caches da Internet e, em particular, locais para recuperar imagens arquivadas das páginas de sites ?
(E, novamente, por favor, não há palestras de backup. Você está totalmente, completamente, totalmente certo! Mas estar certo não está resolvendo meu problema imediato ... A menos que você tenha uma máquina do tempo ...)
fonte
Respostas:
Aqui está minha facada selvagem no escuro: configure seu servidor da Web para retornar 304 para cada solicitação de imagem e, em seguida, faça a origem da recuperação postando uma lista de URLs em algum lugar e pedindo no podcast que todos os seus leitores carreguem cada URL e colhem imagens que carregam de seus caches locais. (Isso só funciona depois que você restaura as próprias páginas HTML, completas com as
<img ...>
tags, que sua pergunta parece sugerir que você poderá fazer.)Essa é basicamente uma maneira elegante de dizer: "obtenha dos caches do navegador dos leitores". Você tem muitos leitores e ouvintes de podcast, para poder mobilizar efetivamente um grande número de pessoas que provavelmente acessaram seu site recentemente. Porém, é difícil encontrar e extrair manualmente imagens de caches de vários navegadores da Web, e toda a abordagem funciona melhor se for fácil o suficiente para que muitas pessoas a testem e sejam bem-sucedidas. Assim, a abordagem 304. Tudo o que exige dos leitores é que eles cliquem em uma série de links e arrastem todas as imagens carregadas em seu navegador da Web (ou clique com o botão direito do mouse e salve como etc.) e depois enviem por e-mail para você ou enviam para um localização central que você configurou, ou qualquer outra coisa. A principal desvantagem dessa abordagem é que os caches do navegador da Web não voltam tão longe no tempo. Mas é preciso apenas um leitor que carregou uma postagem de 2006 nos últimos dias para resgatar até uma imagem muito antiga. Com uma audiência grande o suficiente, tudo é possível.
fonte
canvas
e enviá-las para casa pelo AJAX.Alguns de nós o seguem com um leitor de RSS e não limpam caches. Tenho postagens de blog que parecem voltar a 2006. Nenhuma imagem, pelo que posso ver, mas pode ser melhor do que o que você está fazendo agora.
fonte
(1) Extraia uma lista dos nomes de arquivos de todas as imagens ausentes dos backups em HTML. Você ficará com algo como:
(2) Faça uma pesquisa de imagens no Google para esses nomes de arquivo. Parece que muitos deles foram "espelhados" por outros blogueiros e estão prontos para serem usados porque têm o mesmo nome de arquivo .
(3) Você pode fazer isso de maneira automatizada se for bem-sucedido, digamos, com mais de 10 imagens.
fonte
Ao acessar a pesquisa de imagens do Google e digitar,
site:codinghorror.com
é possível encontrar pelo menos as versões em miniatura de todas as suas imagens. Não, isso não ajuda necessariamente, mas fornece um ponto de partida para recuperar esses milhares de imagens.Parece que o Google armazena uma miniatura maior em alguns casos:
O Google está à esquerda e o Bing à direita.
fonte
Lamento ouvir sobre os blogs. Não vou dar aula. Mas eu encontrei o que parece ser suas imagens no Imageshack. Eles são realmente seus ou alguém tem mantido uma cópia deles por aí.
http://profile.imageshack.us/user/codinghorror
Eles parecem ter 456 imagens em tamanho real. Esta pode ser a melhor aposta para recuperar tudo. Talvez eles possam até lhe fornecer uma reserva.
fonte
Jeff, eu escrevi algo para você aqui
Em suma, o que proponho que você faça é:
Configure o servidor da web para retornar 304 para cada solicitação de imagem. 304 significa que o arquivo não foi modificado e isso significa que o navegador buscará o arquivo do cache se ele estiver presente lá. (crédito: esta resposta do Superusuário )
Em todas as páginas do site, adicione um pequeno script para capturar os dados da imagem e enviá-los ao servidor.
Salve os dados da imagem no servidor.
Voila!
Você pode obter os scripts no link fornecido.
fonte
Tente esta consulta na Wayback Machine :
Você receberá todas as imagens de codinghorror.com arquivadas por archive.org. Isso retorna 3878 imagens, algumas das quais são duplicadas. Não será completo, mas um bom começo, no entanto.
Para as imagens restantes, você pode usar as miniaturas em um cache do mecanismo de pesquisa e fazer uma pesquisa inversa usando-as em http://www.tineye.com/ . Você fornece a imagem em miniatura e fornece uma visualização e um ponteiro para as imagens correspondentes encontradas na Web.
fonte
+1 na
dd
recomendação se (1) o disco bruto estiver disponível em algum lugar; e (2) as imagens eram arquivos simples. Em seguida, você pode usar uma ferramenta forense de "gravação de dados" para (por exemplo) retirar todos os intervalos credíveis que parecem ser JPGs / PNGs / GIFs. Recuperei mais de 95% das fotos em um iPhone que foi apagado dessa maneira.As ferramentas de código aberto 'principal' e seu sucessor 'bisturi' podem ser usadas para isso:
http://foremost.sourceforge.net/
http://www.digitalforensicssolutions.com/Scalpel/
fonte
Felizmente, as gerações futuras ficarão bem.
Mesmo com apenas parte dessa grande rocha, cientistas / linguistas descobriram muito.
Se algumas fotos estiverem faltando, deixe para alguém descobrir daqui a alguns milhares de anos.
Felizmente, você está rindo um pouco. :)
fonte
Você também pode tentar o archive.org também. Use a máquina de retorno. Eu usei isso para recuperar imagens dos meus sites.
fonte
Então, na pior das hipóteses, você não pode recuperar nada. Droga.
Tente pegar o google minificado e colocá-lo no TinEye , o mecanismo de busca de imagens reversas. Espero que ele consiga duplicar ou refazer as pessoas que fizeram.
fonte
É um tiro no escuro, mas você pode considerar:
Por exemplo, consulte o Nirsoft Mozilla Cache Viewer :
(fonte: nirsoft.net )
Ele pode desenterrar rapidamente qualquer imagem "blog.stackoverflow.com" que ainda possa ter por meio de uma simples linha de comando:
Nota: eles têm o mesmo cache explorer para o Chrome .
(fonte: nirsoft.net )
(Devo ter 15 dias no valor de fotos blog.stackoverflow.com)
E Internet Explorer , ou Opera .
Atualize a lista pública para refletir o que os leitores relatam encontrar em seu cache.
fonte
No passado, eu usei o http://www.archive.org/ para obter imagens em cache. É uma espécie de sucesso ou falha, mas funcionou para mim.
Além disso, ao tentar recuperar fotos de estoque que usei em um site antigo, www.tineye.com é ótimo quando eu só tenho as miniaturas e preciso das imagens em tamanho real.
Espero que isso ajude você. Boa sorte.
fonte
Provavelmente, essa não é a solução mais fácil ou mais completa, mas serviços como o Evernote geralmente salvam o texto e as imagens quando são armazenados no aplicativo - talvez alguns leitores úteis que salvaram seus artigos possam salvar as imagens e enviá-las de volta para você. ?
fonte
Eu tive ótimas experiências com archive.org . Mesmo que você não consiga extrair todas as postagens do blog do site, elas mantêm instantâneos periódicos:
Dessa forma, você pode verificar cada página e ver as postagens do blog que você fez. Com os nomes de todas as postagens, você pode encontrá-las facilmente no cache do Google, se o archive.org não tiver. O arquivo tenta manter as imagens, o cache do Google terá imagens e eu não esvaziei meu cache recentemente para poder ajudá-lo com as postagens mais recentes do blog :)
fonte
Você já tentou seu próprio cache do navegador local? Muito boas chances de algumas das coisas mais recentes ainda estarem lá. http://lifehacker.com/385883/resurrect-images-from-my-web-browser-cache
(Ou você pode compilar uma lista de todas as imagens ausentes e todos podem verificar seu cache para ver se podemos preencher os espaços em branco)
fonte
Uma sugestão para o futuro: eu uso o Windows Live Writer para blogs e salva cópias locais de postagens na minha máquina, além de publicá-las no blog.
fonte
Cerca de cinco anos atrás, uma encarnação precoce de um disco rígido externo no qual eu estava armazenando todas as minhas fotos digitais falhou muito. Eu fiz uma imagem do disco rígido usando
dd
e escrevi uma ferramenta rudimentar para recuperar qualquer coisa que parecesse uma imagem JPEG. Tirei a maioria das minhas fotos disso.Então, a pergunta é: você pode obter uma cópia da imagem de disco da máquina virtual que continha as imagens?
fonte
O arquivo da web armazena em cache as imagens. Está sob carga pesada agora, você deve ficar bem até 2008 mais ou menos.
http://web.archive.org/web/20080618014552rn%5F2/www.codinghorror.com/blog/
fonte
Sugiro a combinação de archive.org e um anonimizador de pedidos como [Tor] [2]. Sugiro usar o anonimizador, pois dessa forma cada uma de suas solicitações terá um IP e um local aleatórios e, dessa forma, você poderá evitar ser banido por um archive.org (como o Google fez) por um número extraordinariamente alto de solicitações.
Boa sorte, existem muitas jóias nesse blog.
fonte
A máquina de wayback terá alguns. O cache do Google e caches semelhantes terão alguns.
Uma das coisas mais eficazes que você poderá fazer é enviar por email os pôsteres originais, pedindo ajuda.
Na verdade, tenho algumas recomendações de infraestrutura, pois depois de tudo isso estar limpo. O problema fundamental não é realmente os backups, é a falta de replicação do site e a falta de auditoria. Se você me enviar um e-mail com o conteúdo do campo de e-mail particular, mais tarde, quando estiver de pé, gostaria de discutir o assunto com você.
fonte
Se suas imagens foram armazenadas em um serviço externo, como o Flickr ou uma CDN (como mencionado em um de seus podcasts), você ainda pode ter os recursos de imagem lá.
Algumas imagens podem ser encontradas pesquisando nas Imagens do Google e clique em "Encontrar imagens semelhantes" , talvez haja cópias em outros sites.
fonte
Às vezes, o archive.org oculta imagens. Obtenha cada URL manualmente (ou escreva um script curto) e consulte-os assim:
string.Format ("GET / * / {0}", nextUri)
É claro que será uma grande dor procurar.
Talvez eu tenha alguns no cache do navegador. Se eu fizer, eu os hospedarei em algum lugar.
fonte
Se você deseja tentar raspar os caches dos usuários, convém configurar o servidor para responder
304 Not Modified
a todas as solicitações condicionais-GET ('If-Modified-Since' ou 'If-None-Match'), que os navegadores usam para revalidar o material em cache.Se seus cabeçalhos de cache inicial em conteúdo estático, como imagens, forem bastante liberais - permitindo que as coisas sejam armazenadas em cache por dias ou meses - você poderá continuar recebendo solicitações de revalidação por um tempo. Defina um cookie para essas solicitações e apele para que os usuários executem um script no cache para extrair as imagens que ainda possuem.
No entanto, tenha cuidado: no momento em que você começar a colocar qualquer conteúdo em texto com recursos embutidos que ainda não estão presentes, você poderá acabar com essas versões em cache quando os revalidadores atingirem 404s.
fonte
Você poderia usar TinEye para encontrar duplicatas de suas imagens por pesquisar as miniaturas com cache do Google . Isso ajudará apenas as imagens que você tirou de outro site.
fonte
Correndo o risco de apontar o óbvio, tente extrair os backups do seu próprio computador para as imagens. Sei que minha estratégia de backup é aleatória o suficiente para que eu tenha várias cópias de vários arquivos pendurados em unidades externas, discos gravados e em arquivos zip / tar. Boa sorte!
fonte
Consegui recuperar esses arquivos do meu cache do Safari no Snow Leopard:
Se alguém quiser tentar, escrevi um script Python para extraí-los para ~ / codinghorror / filename, que coloquei online aqui .
Eu espero que isso ajude.
fonte
Você teve a chance de ver se o seu provedor de hospedagem possui algum backup (algumas versões mais antigas)?
fonte
Quanto esses dados valem para você? Se vale uma quantia significativa (milhares de dólares), considere solicitar ao seu provedor de hospedagem o disco rígido usado para armazenar os dados do seu site (no caso de perda de dados devido a falha de hardware). Em seguida, você pode levar a unidade para o ontrack ou algum outro serviço de recuperação de dados para ver o que pode sair da unidade. Isso pode ser difícil de negociar devido à possibilidade de dados não recuperados de outras pessoas na unidade também, mas se você realmente se importa com isso, provavelmente poderá trabalhar com isso.
fonte
Lamento ouvir isso e estou muito irritado com você, e com o tempo - eu queria uma cópia offline de algumas de suas postagens e fiz o HTTrack em todo o site, mas tive que sair (isso foi há algumas semanas) e Eu parei
Se o host estiver meio descendente - e pelo fato de eu achar que você é um bom cliente ... eu pediria que eles lhe enviassem os discos rígidos (como eu acho que eles deveriam usar RAID) ou fizessem alguma recuperação.
Embora isso possa não ser um processo rápido, eu fiz isso com um host para um cliente e consegui recuperar bancos de dados inteiros intactos (... basicamente, o host tentou uma atualização para o painel de controle que estava usando e estragou tudo. mas nada foi substituído).
Aconteça o que acontecer - Boa sorte de todos os seus fãs nos sites SO!
fonte