Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos
DOI:
https://doi.org/10.1590/SciELOPreprints.16461Keywords:
Humanidades Digitais, Sociolinguística Histórica, Processamento de Linguagem Natural, Arquivo Histórico UltramarinoResumen
Este artigo descreve a arquitetura computacional e metodológica do projeto “Classificador AHU-Sul”, voltado à construção de um corpus relacional e semanticamente anotado, composto por aproximadamente 71.000 resumos de documentos do Arquivo Histórico Ultramarino (AHU) referentes ao Sul e Sudeste do Brasil (1737–1828), extraídos do Projeto Resgate Barão do Rio Branco. Para superar as limitações da busca lexical em massas de dados não estruturados, desenvolveu-se uma pipeline em Python que integra técnicas de higienização de metadados, engenharia reversa de códigos arquivísticos (padrão CRAV/DigitArq) e inferência sociolinguística baseada em Grandes Modelos de Linguagem (LLMs). Utilizando a API do modelo DeepSeek v3 sob restrições de zero-shot prompting, a ferramenta avalia os resumos para inferir categorias sociais, vetores de comunicação e a probabilidade de mediação por escrivães. A síntese dessa análise é quantificada no Score de Relevância Sociolinguística Potencial (SRSP), métrica inédita desenvolvida como indicador heurístico para apontar aos pesquisadores os manuscritos com maior propensão a abrigar inovações sintáticas do português brasileiro colonial. O trabalho detalha, ainda, o processo de vetorização semântica dos resumos para a implementação de um motor de busca híbrido (Ensemble Retrieval), que permite consultas tanto por termos lexicais específicos quanto por contextos semânticos amplos. Alinhado aos princípios da Ciência Aberta, o artigo apresenta o conjunto de dados completo, o código-fonte e uma interface interativa disponibilizados publicamente. O objetivo é demonstrar como a aliança entre Humanidades Digitais, Ciência de Dados e Processamento de Linguagem Natural pode otimizar substancialmente a seleção documental para pesquisas em Linguística Diacrônica e de Corpus.
Downloads
Cómo citar
Serie
Derechos de autor 2026 Saulo Rogério Pacheco Rocha

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Datos de los fondos
-
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Números de la subvención 001
Plaudit
Declaración de datos
-
Los datos de investigación están disponibles a petición, condición justificada en el manuscrito
-
Los datos de investigación ya están disponibles en uno o más repositorio de datos


