Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos
DOI:
https://doi.org/10.1590/SciELOPreprints.16461Palavras-chave:
Humanidades Digitais, Sociolinguística Histórica, Processamento de Linguagem Natural, Arquivo Histórico UltramarinoResumo
Este artigo descreve a arquitetura computacional e metodológica do projeto “Classificador AHU-Sul”, voltado à construção de um corpus relacional e semanticamente anotado, composto por aproximadamente 7.051 verbetes de documentos do Arquivo Histórico Ultramarino (AHU) referentes ao Sul e Sudeste do Brasil (1737–1828), extraídos do Projeto Resgate Barão do Rio Branco. Para superar as limitações da busca lexical em massas de dados não estruturados, desenvolveu-se uma pipeline em Python que integra técnicas de higienização de metadados, engenharia reversa de códigos arquivísticos (padrão CRAV/DigitArq) e inferência sociolinguística baseada em Grandes Modelos de Linguagem (LLMs). Utilizando a API do modelo DeepSeek v3 sob restrições de zero-shot prompting, a ferramenta avalia os resumos para inferir categorias sociais, vetores de comunicação e a probabilidade de mediação por escrivães. A síntese dessa análise é quantificada no Score de Relevância Sociolinguística Potencial (SRSP), métrica inédita desenvolvida como indicador heurístico para apontar aos pesquisadores os manuscritos com maior propensão a abrigar inovações sintáticas do português brasileiro colonial. O trabalho detalha, ainda, o processo de vetorização semântica dos resumos para a implementação de um motor de busca híbrido (Ensemble Retrieval), que permite consultas tanto por termos lexicais específicos quanto por contextos semânticos amplos. Alinhado aos princípios da Ciência Aberta, o artigo apresenta o conjunto de dados completo, o código-fonte e uma interface interativa disponibilizados publicamente. O objetivo é demonstrar como a aliança entre Humanidades Digitais, Ciência de Dados e Processamento de Linguagem Natural pode otimizar substancialmente a seleção documental para pesquisas em Linguística Diacrônica e de Corpus.
Downloads
Enviado
Postado
Versões
- 22/06/2026 (2)
- 22/06/2026 (1)
Como Citar
Série
Copyright (c) 2026 Saulo Rogério Pacheco Rocha

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Dados de financiamento
-
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Números do Financiamento 001
Plaudit
Justificativa da versão
Declaração de dados
-
Os dados de pesquisa estão disponíveis sob demanda, condição justificada no manuscrito
-
Os dados de pesquisa estão disponíveis em um ou mais repositório de dados


