Esta é uma versão desatualizada publicada em 01/12/2025. Leia a versão mais recente.
Preprint / Versão 1

Transkribus e o Modelo de OCR Early Portuguese Printing (EPP): Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais

article.authors6a057a0f3df6e

DOI:

https://doi.org/10.1590/SciELOPreprints.13650

Palavras-chave:

Humanidades Digitais, Linguística Histórica, Transcrição OCR, Filologia

Resumo

Este trabalho apresenta o modelo de Reconhecimento Óptico de Caracteres (OCR) “Early Portuguese Printing” (EPP), desenvolvido na plataforma Transkribus, e discute o potencial, os desafios e a história dessas ferramenta para a pesquisa com documentos históricos brasileiros. O Transkribus, mantido pela cooperativa europeia Read-Coop, permite que pesquisadores treinem modelos de IA especializados nas características de seus próprios corpora. O modelo EPP foi treinado especificamente para a transcrição de impressos em língua portuguesa dos séculos 16 ao 19, utilizando um corpus de gramáticas e obras linguísticas do período. Com um training set de 142.606 palavras (745 páginas), o EPP alcançou uma Taxa de Erro de Caracteres (CER) de apenas 2,58%. Este resultado representa um avanço significativo, pois demonstra a potencialidade de ferramentas do tipo para a formação de corpora quantitativos históricos de maior escala e em menos tempo, mantendo a precisão da transcrição de diacríticos, símbolos tipográficos e caracteres gregos, elementos que frequentemente limitam a eficácia de ferramentas de OCR generalistas. Contudo, além de divulgar o potencial da ferramenta, este trabalho problematiza sua natureza. Por pertencer a uma entidade privada europeia e ser um produto SaaS, o uso do Transkribus levanta questões sobre a centralização de dados e a sustentabilidade de sua aplicação em projetos de pesquisa brasileiros de grande escala, considerando o futuro e o volume de nossos acervos históricos.

Downloads

Os dados de download ainda não estão disponíveis.

Postado

01/12/2025

Versões

Como Citar

Transkribus e o Modelo de OCR Early Portuguese Printing (EPP): Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais. (2025). Em SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.13650

Série

Linguística, letras e artes

Plaudit

Declaração de dados

  • Os dados de pesquisa estão contidos no próprio manuscrito