Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos

Saulo Rogério Pacheco Rocha

doi:10.1590/SciELOPreprints.16461

Preprint / Versão 2

Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos

article.authors6a3a570745214

Saulo Rogério Pacheco Rocha Universidade Federal de Santa Catarina https://orcid.org/0000-0003-3715-6706

DOI:

https://doi.org/10.1590/SciELOPreprints.16461

Palavras-chave:

Humanidades Digitais, Sociolinguística Histórica, Processamento de Linguagem Natural, Arquivo Histórico Ultramarino

Resumo

Este artigo descreve a arquitetura computacional e metodológica do projeto “Classificador AHU-Sul”, voltado à construção de um corpus relacional e semanticamente anotado, composto por aproximadamente 7.051 verbetes de documentos do Arquivo Histórico Ultramarino (AHU) referentes ao Sul e Sudeste do Brasil (1737–1828), extraídos do Projeto Resgate Barão do Rio Branco. Para superar as limitações da busca lexical em massas de dados não estruturados, desenvolveu-se uma pipeline em Python que integra técnicas de higienização de metadados, engenharia reversa de códigos arquivísticos (padrão CRAV/DigitArq) e inferência sociolinguística baseada em Grandes Modelos de Linguagem (LLMs). Utilizando a API do modelo DeepSeek v3 sob restrições de zero-shot prompting, a ferramenta avalia os resumos para inferir categorias sociais, vetores de comunicação e a probabilidade de mediação por escrivães. A síntese dessa análise é quantificada no Score de Relevância Sociolinguística Potencial (SRSP), métrica inédita desenvolvida como indicador heurístico para apontar aos pesquisadores os manuscritos com maior propensão a abrigar inovações sintáticas do português brasileiro colonial. O trabalho detalha, ainda, o processo de vetorização semântica dos resumos para a implementação de um motor de busca híbrido (Ensemble Retrieval), que permite consultas tanto por termos lexicais específicos quanto por contextos semânticos amplos. Alinhado aos princípios da Ciência Aberta, o artigo apresenta o conjunto de dados completo, o código-fonte e uma interface interativa disponibilizados publicamente. O objetivo é demonstrar como a aliança entre Humanidades Digitais, Ciência de Dados e Processamento de Linguagem Natural pode otimizar substancialmente a seleção documental para pesquisas em Linguística Diacrônica e de Corpus.

Downloads

Os dados de download ainda não estão disponíveis.

Enviado

09/06/2026

Postado

22/06/2026 — Atualizado em 22/06/2026

Versões

22/06/2026 (2)
22/06/2026 (1)

Como Citar

Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos. (2026). Em SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.16461

Baixar Citação

Série

Linguística, letras e artes

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.

Dados de financiamento

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Números do Financiamento 001

Plaudit

Justificativa da versão

Correção de uma imprecisão quantitativa no Resumo e no Abstract. A versão anterior afirmava erroneamente que o corpus era composto por '71.000 resumos', confundindo a dimensão da base de dados bruta original (71.000 linhas de texto) com o escopo do recorte metodológico. O texto foi retificado para esclarecer que o corpus final analisado é composto por 7.051 resumos documentais.

Declaração de dados

Os dados de pesquisa estão disponíveis sob demanda, condição justificada no manuscrito
Os dados de pesquisa estão disponíveis em um ou mais repositório de dados

Desenvolvimento de um Classificador do Catálogo do Arquivo Histórico Ultramarino: Um Experimento com Processamento de Linguagem Natural e Inteligência Artificial Aplicado a Resumos Arquivísticos

article.authors6a3a570745214

DOI:

Palavras-chave:

Resumo

Downloads

Enviado

Postado

Versões

Como Citar

Série

Dados de financiamento

Plaudit

Justificativa da versão

Declaração de dados

Aviso de preprints

Notícias

SciELO Preprints adota obrigatoriedade de declaração de disponibilização de dados de pesquisa

Atualização da Política Editorial e FAQ

Prêmio Ben Barres Spotlight: Inscrições abertas para 2024