INESC TEC vai digitalizar o maior acervo documental da História de Portugal

Projeto tem como parceiros o INESC TEC, a Universidade de Évora e a Direção Geral do Livro, dos Arquivos e das Bibliotecas. (Foto DR)

Integrar no mundo digital o maior acervo de fontes da História de Portugal. É este o principal objetivo do novo projeto do INESC TEC, designado EPISA – Entity and Property Inference for Semantic Archives, que arranca este mês de janeiro.

O foco do projeto EPISA é, a partir da análise dos registos existentes no Arquivo Nacional da Torre do Tombo (ANTT), produzir novas representações dos documentos que os interliguem às redes de dados abertos ligados, tendo em conta o aumento dos acessos on-line. Para isso, o projeto vai desenvolver ferramentas para a produção de novos registos pelos arquivistas e para a pesquisa pelos cidadãos.

O EPISA recorre a métodos de processamento de linguagem natural, reconhecimento de entidades e aprendizagem automática para explorar os registos de documentos e os próprios documentos se estiverem em suporte digital. Das descrições produzidas por arquivistas, serão extraídas entidades e relações que vão povoar um modelo de descrição, semanticamente mais rico que o modelo atual e mais fácil de tratar automaticamente.

O ANTT é o responsável por preservar os documentos do Estado Português, cobrindo toda a história do País, e integra, para além do Arquivo Nacional, a generalidade dos Arquivos Distritais. Gere um acervo de cerca de 20 milhões de representações digitais e de documentação analógica que, se alinhada, corresponde a cerca de 100 km.

O património documental do ANTT tem vindo a ser progressivamente digitalizado e a incorporar documentos nado-digitais, num total de 1,3 milhões de registos de documentos disponíveis. Toda esta informação é sistematicamente registada e descrita segundo regras internacionalmente estabelecidas para um contexto dominado pelo suporte em papel.

O projeto EPISA foi um dos 15 projetos aprovados no Concurso de Projetos de Investigação Científica e Desenvolvimento Tecnológico em Ciência dos Dados e Inteligência Artificial na Administração Pública, uma iniciativa conjunta dos ministérios da Ciência, Tecnologia e Ensino Superior e da Modernização Administrativa. O projeto tem um orçamento aproximado de 300 mil euros, sendo financiado pela Fundação para a Ciência e a Tecnologia.

Além do INESC TEC (proponente), este projeto tem como parceiros a Universidade de Évora e a Direção Geral do Livro, dos Arquivos e da Bibliotecas (DGLAB), responsável pelo Arquivo Nacional da Torre do Tombo.