Transkribus e o Modelo de OCR Early Portuguese Printing (EPP): Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais
DOI:
https://doi.org/10.1590/SciELOPreprints.13650Keywords:
Humanidades Digitais, Linguística Histórica, Transcrição OCR, FilologiaResumen
Este trabalho apresenta o modelo de Reconhecimento Óptico de Caracteres (OCR) “Early Portuguese Printing” (EPP), desenvolvido na plataforma Transkribus, e discute o potencial, os desafios e a história dessas ferramenta para a pesquisa com documentos históricos brasileiros. O Transkribus, mantido pela cooperativa europeia Read-Coop, permite que pesquisadores treinem modelos de IA especializados nas características de seus próprios corpora. O modelo EPP foi treinado especificamente para a transcrição de impressos em língua portuguesa dos séculos 16 ao 19, utilizando um corpus de gramáticas e obras linguísticas do período. Com um training set de 142.606 palavras (745 páginas), o EPP alcançou uma Taxa de Erro de Caracteres (CER) de apenas 2,58%. Este resultado representa um avanço significativo, pois demonstra a potencialidade de ferramentas do tipo para a formação de corpora quantitativos históricos de maior escala e em menos tempo, mantendo a precisão da transcrição de diacríticos, símbolos tipográficos e caracteres gregos, elementos que frequentemente limitam a eficácia de ferramentas de OCR generalistas. Contudo, além de divulgar o potencial da ferramenta, este trabalho problematiza sua natureza. Por pertencer a uma entidade privada europeia e ser um produto SaaS, o uso do Transkribus levanta questões sobre a centralização de dados e a sustentabilidade de sua aplicação em projetos de pesquisa brasileiros de grande escala, considerando o futuro e o volume de nossos acervos históricos.
Downloads
Postado
Versiones
- 27/01/2026 (2)
- 01/12/2025 (1)
Cómo citar
Serie
Derechos de autor 2025 Saulo Rogério Pacheco Rocha

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Plaudit
Declaración de datos
-
Los datos de investigación están incluidos en el propio manuscrito


