Preprint / Versão 2

Transkribus e o Modelo de ATR Early Portuguese Printing: Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais

article.authors6a0537586b789

DOI:

https://doi.org/10.1590/SciELOPreprints.13650

Palavras-chave:

Humanidades Digitais, Linguística Histórica, Transcrição OCR, Filologia

Resumo

Este trabalho apresenta o modelo de Reconhecimento Óptico de Caracteres (OCR) “Early Portuguese Printing” (EPP), desenvolvido na plataforma Transkribus, e discute o potencial, os desafios e a história dessas ferramenta para a pesquisa com documentos históricos brasileiros. O Transkribus, mantido pela cooperativa europeia Read-Coop, permite que pesquisadores treinem modelos de IA especializados nas características de seus próprios corpora. O modelo EPP foi treinado especificamente para a transcrição de impressos em língua portuguesa dos séculos 16 ao 19, utilizando um corpus de gramáticas e obras linguísticas do período. Com um training set de 142.606 palavras (745 páginas), o EPP alcançou uma Taxa de Erro de Caracteres (CER) de apenas 2,58%. Este resultado representa um avanço significativo, pois demonstra a potencialidade de ferramentas do tipo para a formação de corpora quantitativos históricos de maior escala e em menos tempo, mantendo a precisão da transcrição de diacríticos, símbolos tipográficos e caracteres gregos, elementos que frequentemente limitam a eficácia de ferramentas de OCR generalistas. Contudo, além de divulgar o potencial da ferramenta, este trabalho problematiza sua natureza. Por pertencer a uma entidade privada europeia e ser um produto SaaS, o uso do Transkribus levanta questões sobre a centralização de dados e a sustentabilidade de sua aplicação em projetos de pesquisa brasileiros de grande escala, considerando o futuro e o volume de nossos acervos históricos.

Downloads

Os dados de download ainda não estão disponíveis.

Postado

01/12/2025 — Atualizado em 27/01/2026

Versões

Como Citar

Transkribus e o Modelo de ATR Early Portuguese Printing: Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais. (2026). Em SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.13650 (Original work published 2025)

Série

Linguística, letras e artes

Plaudit

Justificativa da versão

Refinamento terminológico nos cabeçalhos das tabelas (Seção 3.1) e na Introdução; Substituição do ponto de código da letra grega epsilon (corrigido para U+03B5), removi a confusão anterior com homoglifo latin small letter open E (U+025B); Reescrita e melhor fundamentação das notas de rodapé 15 e 16; Revisão de alguns erros de digitação.

Declaração de dados

  • Os dados de pesquisa estão contidos no próprio manuscrito