Alguma vez fez uma pesquisa na internet, o motor de busca retorna-lhe alguns resultados que parecem extremamente promissores, apenas para, quando clica nos links, descobrir que a página desapareceu? Pois é terrivel quando isso acontece, não é?

Servidores param, ou deixam de ser mantidos, web sites penduram ou as subscrições caducam, webmasters mudam estruturas de sites ou transferem-nos para outros alojamentos, com diferentes acessos, nomes de dominio são substituidos… enfim, a causa é multipla. Muitas vezes é apenas o sucesso que determina estes problemas: uma página que aparece referenciada no Digg ou no Delicious repentinamente começa a ter acessos em numero elevado. E o resultado é que o servidor “se senta” (erro conhecido por “Denial of Service”), o fornecedor do alojamento retira o site do ar por excesso de ocupação de largura de banda, ou simplesmente o seu pedido da página é ignorado por excesso de tempo de resposta do servidor.

Que fazer nesse caso? Resignar-se? Provávelmente é o que você faz, quando acontece. Provávelmente é o que a maior parte das pessoas faz.

Mas saiba que a internet é bastante redundante e tem memória. A  página que procura está algures à sua espera. Vejamos como encontrá-la.

O Básico

Em primeiro lugar: sabia que o google faz a cache das páginas que indexa? Pois repare, junto ao link de resultados, numa indicação clicável de “Cached page” ou “Em Cache”.    Aí está a sua salvação: mesmo que o servidor não esteja a responder, o google guardou a página indexada para si. Repare agora no clicável “Semelhante”. Pois aí está a sua segunda oportunidade: se o servidor mudou de lugar, o dominio ou nome de servidor foi alterado, ou por alguma razão o endereçoo do site se alterou, é possivel que o google já o tenha indexado na sua nova localização, e por aí vai poder encontrar a página que procura. Muita gente em todo o mundo nunca reparou nestas funcionalidades! Acredita? Eu acredito, porque eu próprio nunca tinha realmente reparado nas possibilidades que lhe estavam associadas.

Mas o problema é quando isto não resulta. E não resulta porque a página não é encontrada porque foi substituida por outra com o mesmo nome mas com outro conteúdo, ou porque nada existe em cache… Que fazerentão?

Não se atrapalhe. Recorra a um outro serviço.

Um mirror da internet?

Há uma rede distribuida cuja unica função é fazer backups e réplicas de sites. Coral Cache é um serviço de distributed computing que foi criada apenas para constituir um mirror da internet, podendo responder quando os servidores reais não são capazes de o fazer, seja porque razão for. Tente o serviço…e é tão simples: use o URL da página  que pretende mas acrescente-lhe .nyud.net

E é tudo o que precisa de fazer para recuperar o acesso a uma página que desapareceu ou que se encontra num servidor que não responde. Sabia disto?

As outras alternativas

Mas não ficamos por aqui! Dois outros serviços podem ser a sua salvação.

Então e se a página em cache já não é a que efectivamente pretendia (o webmaster substituiu a página por outra com conteúdos diversos), ou o link conduz a uma página que já não é a versão pretendida?

Internet Archive é uma organização sem fins lucrativos cujo objectivo é criar um repositório universal de páginas web alguma vez publicadas, para uso por investigadores e para pesquisas. O objectivo é ambicioso, mas dificil de cumprir; os critérios daquilo que vale a pena arquivar ou não, pode ser dúbio, pouco elaborado ou até deficiente (fatalmente é!).  Porém o serviço continua a funcionar, e vale a pena tentar: pode ser que exactamente essa página que pretende tenha mesmo sido guardada, arquivada e indexada pelo serviço. Tente.

Mais surpreendente ainda é o  Wayback Machine para cada URL, detecta páginas que tenham sido publicadas abaixo dele e as guarda numa time line associada. Isto permite reconstituir um site como ele era práticamente em qualquer data. Podem ser encontradas páginas removidas à anos atrás, reconstruido um site como ele era em certa data, ou procurados conteudos há muito desaparecidos. Não é universal, mas é uma boa ajuda. O principal problema é que apenas certos conteudos da página são guardados, principalmente textos, HTML, links e imagens. Todos os outros conteudos foram provávelmente perdidos…

Mas não se esqueça de uma coisa: em muitas páginas que contêm links para documentos ou downloads, os ficheiros são efectivamente guardados em servidores externos, e aí permanecem… Esta será uma boa forma de encontrar drivers para hardware de fabricantes há muito desaparecidos ou para encontrar catálogos, data sheets, artigos, application notes, ou outros documentos que eventualmente tenham sido guardados em servidores externos, mas cujos links entretanto se tenham perdido. Só não espere encontrar videos, ficheiros de som, animações flash, ou memorização de páginas em tecnologias mais elaboradas que o HTML.

Mais vale prevenir…

Mas se encontrou um conjunto de páginas que para si são importantes e relevantes, mais vale prevenir que remediar.

A primeira opção é salvar localmente as páginas que acha interessantes. Se já o tentou acabou por guardar no seu computador um conjunto de ficheiros com a extensão html, e uma quantidade de subpastas que mais não são que as imagens, animações flash, videos, elementos externos à própria página HTML que tentou gravar, e que lhe enchem o disco de um lixo  que dificilmente consegue gerir e manter…

Pois então, no Internet Explorer experimente fazer “Guardar como” e depois em tipo de ficheiro escolha “Arquivo Web, ficheiro unico (*.mht)” . Ora aí tem: a página completa e todos os anexos, incluindo imagens, links, animações, ficheiros externos, disponiveis num unico ficheiro fácil de gerir. Um ficheiro unico para toda a página que guardou.

A segunda hipotese é usar um serviço que tem algumas caracteristicas interessantes: guardar os seus links interessantes num qualquer serviço público. Pode usar o Ma.gnolia, que teve recentemente alguns problemas (se quer saber o que aconteceu veja o podcast http://citizengarden.com/2009/02/15/episode-11-whither-magnolia/), mas está agora em vias de ser estabilizado, e reiniciará o serviço brevemente, para uma comunidade registada, cuja filosofia é o de fazer cache de todos os links que os utilizadores fornecem. Aí terá as páginas que para si são importantes guardadas em (relativa) segurança. Alguma vez se lembrou disto? Alguma vez recorreu ao serviço?

A outra alternativa são os sites de classificação de links e de sites. Alguns deles fazem cache das páginas referenciadas exactamente da mesma maneira. Tente o Del.icio.us, Noutros sites deste género o cache da página é opcinal, reservado a utilizadores “pro” ou inexistente. Procure sempre a funcionalidade e garanta que existe, que a activou, ou que a subscreveu.

A partir de hoje, não perca os dados que para si são importantes…

Referências
google
Coral Cache
Internet Archive
Wayback Machine
Ma.gnolia
Del.icio.us

DIY preparado por João Ledo Fonseca, Dreamfeel Lda