Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos

Saulo Rogério Pacheco Rocha

doi:10.1590/SciELOPreprints.16461

Preprint / Versión 2

Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos

article.authors6a3a572a4717e

Saulo Rogério Pacheco Rocha Universidad Federal de Santa Catarina https://orcid.org/0000-0003-3715-6706

DOI:

https://doi.org/10.1590/SciELOPreprints.16461

Keywords:

Humanidades Digitais, Sociolinguística Histórica, Processamento de Linguagem Natural, Arquivo Histórico Ultramarino

Resumen

Este artigo descreve a arquitetura computacional e metodológica do projeto “Classificador AHU-Sul”, voltado à construção de um corpus relacional e semanticamente anotado, composto por aproximadamente 7.051 verbetes de documentos do Arquivo Histórico Ultramarino (AHU) referentes ao Sul e Sudeste do Brasil (1737–1828), extraídos do Projeto Resgate Barão do Rio Branco. Para superar as limitações da busca lexical em massas de dados não estruturados, desenvolveu-se uma pipeline em Python que integra técnicas de higienização de metadados, engenharia reversa de códigos arquivísticos (padrão CRAV/DigitArq) e inferência sociolinguística baseada em Grandes Modelos de Linguagem (LLMs). Utilizando a API do modelo DeepSeek v3 sob restrições de zero-shot prompting, a ferramenta avalia os resumos para inferir categorias sociais, vetores de comunicação e a probabilidade de mediação por escrivães. A síntese dessa análise é quantificada no Score de Relevância Sociolinguística Potencial (SRSP), métrica inédita desenvolvida como indicador heurístico para apontar aos pesquisadores os manuscritos com maior propensão a abrigar inovações sintáticas do português brasileiro colonial. O trabalho detalha, ainda, o processo de vetorização semântica dos resumos para a implementação de um motor de busca híbrido (Ensemble Retrieval), que permite consultas tanto por termos lexicais específicos quanto por contextos semânticos amplos. Alinhado aos princípios da Ciência Aberta, o artigo apresenta o conjunto de dados completo, o código-fonte e uma interface interativa disponibilizados publicamente. O objetivo é demonstrar como a aliança entre Humanidades Digitais, Ciência de Dados e Processamento de Linguagem Natural pode otimizar substancialmente a seleção documental para pesquisas em Linguística Diacrônica e de Corpus.

Downloads

Los datos de descarga aún no están disponibles.

PDF (Portugués)

Enviado

09/06/2026

Postado

22/06/2026 — Actualizado el 22/06/2026

Versiones

22/06/2026 (2)
22/06/2026 (1)

Cómo citar

Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos. (2026). In SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.16461

Descargar cita

Serie

Linguística, letras y artes

Derechos de autor 2026 Saulo Rogério Pacheco Rocha

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.

Datos de los fondos

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Números de la subvención 001

Plaudit

Justificación de la versión

Correção de uma imprecisão quantitativa no Resumo e no Abstract. A versão anterior afirmava erroneamente que o corpus era composto por '71.000 resumos', confundindo a dimensão da base de dados bruta original (71.000 linhas de texto) com o escopo do recorte metodológico. O texto foi retificado para esclarecer que o corpus final analisado é composto por 7.051 resumos documentais.

Declaración de datos

Los datos de investigación están disponibles a petición, condición justificada en el manuscrito
Los datos de investigación ya están disponibles en uno o más repositorio de datos

Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos

article.authors6a3a572a4717e

DOI:

Keywords:

Resumen

Downloads

Enviado

Postado

Versiones

Cómo citar

Serie

Datos de los fondos

Plaudit

Justificación de la versión

Declaración de datos

Aviso de preprints

Avisos

SciELO Preprints adopta la obligatoriedad de la declaración de disponibilidad de datos de investigación

Actualización de la Política Editorial y del FAQ

Premios Ben Barres Spotlight: Candidaturas abiertas para 2024