This preprint has been published elsewhere.
DOI of the published preprint https://doi.org/10.25189/2675-4916.2025.v6.n4.id863

Preprint / Version 1

Brazilian Linguistic Diversity Platform: Linguistic data for a Brazilian AI

##article.authors##

Raquel Meister Ko Freitag Federal University of Sergipe https://orcid.org/0000-0002-4972-4320
Marcia dos Santos Machado Vieira Federal University of Rio de Janeiro
Juliana Bertucci Barbosa Federal University of Triângulo Mineiro https://orcid.org/0000-0002-1510-633X
Miguel Oliveira Jr. Federal University of Alagoas https://orcid.org/0000-0002-0866-0535
Cleber Ataíde Federal University of Pernambuco https://orcid.org/0000-0002-9340-9977
Alana de Santana Correia Attenty Sistemas de Software
Amanda Post da Silveira Federal University of Jataí
André Britto de Carvalho Federal University of Sergipe https://orcid.org/0000-0002-6498-9706
Andréia Silva Araujo State University of Santa Cruz
Brayna Conceição dos Santos Cardoso Federal University of Para https://orcid.org/0000-0002-9358-5145
Claudia Andrea Rost Snichelotto Federal University of Fronteira Sul
Eduardo Cardoso Martins Federal University of Amazonas https://orcid.org/0000-0001-8018-218X
Eliabe dos Santos Procópio Federal University of Sergipe https://orcid.org/0000-0002-9766-1686
Elisa Battisti Federal University of Rio Grande do Sul
Elisângela Nogueira Teixeira Federal University of Ceará https://orcid.org/0000-0003-3924-3985
Fabiane Cristina Altino Londrina State University https://orcid.org/0000-0002-5987-2028
Hadinei Ribeiro Batista Minas Gerais State University https://orcid.org/0000-0002-3157-6366
Hendrik Teixeira Macedo Federal University of Sergipe https://orcid.org/0000-0002-6171-6948
Isabel de Oliveira e Silva Monguilhott Universidade Federal de Santa Catarina https://orcid.org/0000-0001-6613-9142
Iury Cleveston Attenty Sistemas de Software https://orcid.org/0000-0002-6010-4624
Kendra Dickinson Rutgers, The State University of New Jersey https://orcid.org/0000-0002-2229-4017
Lilian Cristine Hübner Pontifical Catholic University of Rio Grande do Sul
Luma da Silva Miranda Eötvös Loránd University
Mailce Borges Mota Universidade Federal de Santa Catarina https://orcid.org/0000-0002-8674-2480
Marcus Garcia de Sene University of Pernambuco https://orcid.org/0000-0002-2715-5294
Marinete Rodrigues da Silva Federal University of Acre
Marta Deysiane Alves Faria Sousa Instituto Federal de Educação, Ciência e Tecnologia de Sergipe https://orcid.org/0000-0002-0480-0422
Monica Maria Guimarães Savedra Fluminense Federal University
Pedro Ricardo Bin Universidade Federal de Santa Catarina https://orcid.org/0000-0002-7547-3430
Ronice Muller de Quadros Universidade Federal de Santa Catarina https://orcid.org/0000-0002-5152-8716
Sandro Marcío Drumond Alves Marengo Federal University of Sergipe https://orcid.org/0000-0003-4658-004X
Silvana Silva de Farias Araújo State University of Feira de Santana
Túlio Sousa de Gois Federal University of Sergipe https://orcid.org/0009-0000-5270-8033
Valéria Viana Sousa Southwest Bahia State University
Valter de Carvalho Dias Federal Institute of Bahia https://orcid.org/0000-0001-9484-552X

DOI:

https://doi.org/10.1590/SciELOPreprints.11957

Keywords:

LLM, Artificial intelligence, Linguistics, Linguistic data

Abstract

Generative artificial intelligence is based on large-scale language models (LLMs), which are trained with data most often collected without consent or in breach of copyright. LLMs are trained with billions of words and millions of parameters, but we don't know exactly which texts are selected in the training or which parameters are controlled. While unsupervised learning requires a large volume of data, demanding more and more computational costs and generating energy impacts, supervised learning with structured and tagged data can optimize this process; more than that: supervised learning with structured and tagged data resulting from language documentation projects can contribute directly to the National Artificial Intelligence Plan: “Develop advanced language models in Portuguese, with national data that encompasses our cultural, social and linguistic diversity, to strengthen sovereignty in AI.” In Brazil, in addition to Portuguese and its varieties, there are more than 250 other languages (indigenous, immigration, sign language), which are neglected in digital inclusion due to a lack of structured data. The consortium of laboratories and research groups in this INCT aims to prepare linguistic data for the training of LLMs, considering Brazil's linguistic diversity, with the development of a joint protocol for collecting linguistic data in the field, to be replicated in the groups and laboratories longitudinally, as well as transcription procedures, as well as procedures for transcribing, aligning and labeling linguistic data to create a data set that represents Brazilian linguistic diversity, and conducting studies on linguistic processing of diversity to fine-tune LLMs, helping to reduce asymmetries and prejudice resulting from training LLMs with translations from English.

Downloads

Download data is not yet available.

PDF (Portuguese)

Posted

05/21/2025

How to Cite

Brazilian Linguistic Diversity Platform: Linguistic data for a Brazilian AI. (2025). In SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.11957

Download Citation

Section

Linguistic, literature and arts

Copyright (c) 2025 Raquel Meister Ko Freitag, Marcia dos Santos Machado Vieira, Juliana Bertucci Barbosa, Miguel Oliveira Jr., Cleber Ataíde, Alana de Santana Correia, Amanda Post da Silveira, André Britto de Carvalho, Andréia Silva Araujo, Brayna Conceição dos Santos Cardoso, Claudia Andrea Rost Snichelotto, Eduardo Cardoso Martins, Eliabe dos Santos Procópio, Elisa Battisti, Elisângela Nogueira Teixeira, Fabiane Cristina Altino, Hadinei Ribeiro Batista, Hendrik Teixeira Macedo, Isabel de Oliveira e Silva Monguilhott, Iury Cleveston, Kendra Dickinson, Lilian Cristine Hübner, Luma da Silva Miranda, Mailce Borges Mota, Marcus Garcia de Sene, Marinete Rodrigues da Silva, Marta Deysiane Alves Faria Sousa, Monica Maria Guimarães Savedra, Pedro Ricardo Bin, Ronice Muller de Quadros, Sandro Marcío Drumond Alves Marengo, Silvana Silva de Farias Araújo, Túlio Sousa de Gois, Valéria Viana Sousa, Valter de Carvalho Dias