Arquivo.pt: encontre informação que já desapareceu da Internet

por a 10 Novembro 2014 em Artigos

Este artigo foi escrito por Daniel Gomes, coordenador, e por João Miranda, responsável pela operação das recolhas e pelos sistemas de publicação na web, do Arquivo da Web Portuguesa.

logo_arquivo_white_center

A Web foi idealizada como um meio de comunicação rápido mas tem vindo a substituir a imprensa como meio privilegiado de publicação. Apesar de cada vez existirem mais publicações exclusivamente online, a informação publicada é extremamente volátil. Cerca de 80% dos conteúdos são alterados ou desaparecem passado apenas 1 ano da sua publicação. Contudo, toda esta informação desaparecida é importante e necessária para os utilizadores atuais da Web assim como para as gerações futuras que tenham interesse em estudar os nossos tempos.

Para fazer face ao problema da volatilidade da informação na Web foram criados pelo mundo vários arquivos da Web que recolhem, arquivam e preservam esta informação. O primeiro arquivo da Web a ser criado foi o Internet Archive fundado em 1996 nos EUA.

Arquivo da Web Portuguesa

O Arquivo da Web Portuguesa (Arquivo.pt) distingue-se de outros arquivos da Web, como o Internet Archive, por disponibilizar pesquisa por texto integral (full text search), ou seja, por permitir pesquisar páginas publicadas no passado que contenham determinadas palavras, como se fosse um “Google do passado”. Caso um utilizador conheça o endereço exato da página a que pretende aceder, poderá pesquisar o histórico de versões arquivadas dessa página. No Arquivo.pt poderá encontrar páginas interessantes como a primeira página da Web portuguesa criada nos anos 90 pela Universidade do Minho.

Primeira Página Web Portuguesa

A Web portuguesa é composta por todos os conteúdos alojados sob o domínio .PT e outros de manifesto interesse para a comunidade portuguesa. Trimestralmente, é feito um arquivo exaustivo de toda a Web portuguesa. Diariamente, o Arquivo.pt armazena um conjunto de publicações online que foram selecionadas em colaboração com a Biblioteca Nacional. Qualquer pessoa pode sugerir o arquivo de sites que lhe pareçam interessantes através da página sugerir no Arquivo.pt.

Números e software

O Arquivo.pt preserva 1 724 milhões de ficheiros arquivados da Web desde 1996 (57 TB). Como o projeto existe apenas desde 2007, foram também integrados conteúdos históricos detidos por entidades externas como o Internet Archive ou a Biblioteca Nacional.

A infraestrutura que suporta o sistema do Arquivo.pt é composta por 64 servidores, somando um total de 6 TB de memória, 132 processadores (584 cores) e 598 discos (602 TB). Todos os servidores usam o sistema operativo Linux.

Todo o software usado e desenvolvido é livre e de código-aberto, estando disponível como um projeto do Google Code em pwa-technologies. A principal linguagem de programação usada foi o Java, tendo sido programadas mais de 72 000 linhas de código.

As tecnologias que serviram de base ao desenvolvimento do Arquivo.pt foram o sistema de recolha Heritrix (crawler), os sistemas de pesquisa Lucene, NutchWAX e Wayback Machine e o sistema de processamento distribuído Hadoop. O Arquivo.pt disponibiliza também uma interface de programação baseada no protocolo OpenSearch que permite o desenvolvimento rápido de aplicações Web sobre o serviço.

Publicações da equipa e recomendações

No site informativo acerca do serviço poderá encontrar informações adicionais tais como publicações técnicas e recomendações para que os autores consigam publicar páginas na Web que possam vir a ser corretamente arquivadas e acedidas ao longo dos anos.

O Arquivo.pt é um serviço público e gratuito de arquivo prestado aos autores da Web portuguesa.

Experimente encontrar o seu site em www.arquivo.pt.