Arquivos digitais para a preservação

Padrões como o ASCII, ANSI e Unicode foram criados para possibilitar o intercâmbio, a exibição e o processamento de conteúdos textuais. É um recurso fundamental na conversão de bits em informação e vice-versa. Atualmente, o Unicode é o padrão mais utilizado pelos sistemas operacionais e bancos de dados. Desenvolvido no início da década de 90, por um consórcio composto pelas maiores empresas mundiais de TI, entre elas Microsoft, Oracle, Sun e Adobe, o Unicode pode representar praticamente qualquer “caracter” de qualquer idioma.

Luiz Augusto Bellucci

[private] O TIFF  (Tagged Image File Format) é um formato para imagens digitais que foi criado em meados da década de 80. O TIFF original serviu de base para o desenvolvimento do TIFF CCITT Grupo 4, criado para ser gerado, distribuído e impresso pelos aparelhos de fax e que graças a seus recursos de compressão, se tornou o padrão para o arquivamento de documentos bitonais digitalizados, durante a década de 90. Bilhões de documentos foram digitalizados em TIFF CCITT Grupo 4 em todo o mundo.

O TIFF, porém, é um formato limitado à imagem do documento e não acompanhou as necessidades de mercado e a evolução das tecnologias nos últimos anos.

O PDF foi criado pela  Adobe Systems em 1993, já com o objetivo de ser exatamente o que é hoje:  denominador comum entre todos os formatos de documentos digitais.

Apesar da Adobe ser proprietária da especificação do PDF, o formato é público e de livre utilização, tanto que existem milhares de softwares capazes de gerar ou manipular PDFs que nada pagam à Adobe. Graças a seus recursos e estrutura, o PDF tem sido utilizado como base para o desenvolvimento de normas públicas que especificam padrões de documentos digitais para diversas aplicações. O PDF/X, que revolucionou a indústria gráfica, foi publicado em 1999. Em outubro de 2005, foi publicada a norma ISO 19005-1, que especifica o PDF/A, o PDF para ser arquivado e preservado por um longo tempo. Hoje está em andamento o desenvolvimento das especificações para documentos digitais de engenharia (PDF/E) e acessibilidade para deficientes (PDF/UA).

A especificação do PDF/A pela ISO demonstra o empenho da sociedade tecnológica para economia de recursos no futuro. O comitê da ISO que especifica o PDF/A é constituído por representantes de mais de 300 empresas, órgãos governamentais e associações, entre eles        AIIM, NPES, HP, XEROX, NARA, EMC/Documentum, Pfizer, Glaxo e Universidade de Harvard. É um trabalho de desenvolvimento contínuo, que acompanha a evolução do formato PDF ao longo dos anos. Uma nova versão da norma, contemplando recursos mais atualizados do formato PDF, está prevista para 2009.

Muitos podem perguntar para que uma norma, se só o tão utilizado PDF não seria suficiente para garantir a preservação do documento por um longo tempo. O PDF normal, com certeza, será aberto e impresso por um longo tempo, mas pode conter elementos que impeçam o acesso ao documento daqui a dezenas de anos ou não conter elementos obrigatórios para garantir sua impressão. A especificação do PDF/A nos diz como deve ser o PDF para que seja lido e impresso sem problemas num futuro distante. Em um PDF/A, por exemplo, não podemos ter scripts e arquivos atachados, e todas as fontes utilizadas devem ser inseridas no PDF. Um outro recurso importante do PDF/A é o suporte a metadados embutidos, ou seja, os atributos que os descrevem ficam dentro dos PDFs, permitindo que sejam facilmente gerenciados ou pesquisados, tornando a coleção de PDFs acessível e independente de sistemas de indexação ou bases de dados.

O PDF/A permitirá uma grande redução no custo de gerenciamento de acervos de documentos no futuro, pois será necessário controlar um único formato e não dezenas. Outra grande vantagem será a facilidade de intercambiar documentos entre acervos diferentes e a facilidade na recuperação da informação.

Ao especificar seu projeto com documentos digitais, seja com documentos digitalizados ou oriundos de editores de texto, planilhas, apresentações ou e-mails, optar pelo PDF/A vai de encontro às melhores práticas para a preservação digital. As bases em texto puro serão preservadas por um longo tempo com facilidade, pois os padrões por ela utilizados são gerenciados pelos sistemas operacionais e bancos de dados. Já o Tiff resistirá por muito tempo graças à grande base de documentos já neste formato, mas cairá em desuso ao longo dos anos, substituído, naturalmente, pelo PDF. [/private]

* Luiz Augusto Bellucci é consultor especialista em aplicações da tecnologia PDF para ECM.

Share This Post

Post Comment