Plataforma da Diversidade Linguística Brasileira: Dados linguísticos para uma IA brasileira
DOI:
https://doi.org/10.1590/SciELOPreprints.11957Palavras-chave:
LLM, Inteligéncia artificial, Linguística, Dados linguísticosResumo
A inteligência artificial generativa é baseada em modelos de língua em larga escala (LLMs), que são treinados com dados na maioria das vezes coletados sem consentimento ou infringindo direitos autorais. LLMs são treinados com bilhões de palavras e milhões de parâmetros, mas não sabemos exatamente quais textos são selecionados no treinamento ou quais parâmetros são controlados. Enquanto o aprendizado não supervisionado requer um grande volume de dados, demandando cada vez mais custos computacionais e gerando impactos energéticos, o aprendizado supervisionado, com dados estruturados e etiquetados pode otimizar esse processo; mais do que isso: o aprendizado supervisionado com dados estruturados e etiquetados resultantes de projetos de documentação linguística podem contribuir diretamente para o Plano Nacional de Inteligência Artificial: “Desenvolver modelos avançados de linguagem em português, com dados nacionais que abarcam nossa diversidade cultural, social e linguística, para fortalecer a soberania em IA.” No Brasil, além do português e suas variedades, há mais de 250 outras línguas (indígenas, de imigração, sinalizadas), negligenciadas na inclusão digital por falta de dados estruturados. O consórcio de laboratórios e grupos de pesquisa neste INCT visa a preparação de dados linguísticos para o treinamento de LLMs, considerando a diversidade linguística brasileira, com o desenvolvimento de um protocolo conjunto de coleta de dados linguísticos em campo, a ser replicado nos grupos e laboratórios longitudinalmente, assim como procedimentos de transcrição, alinhamento e etiquetagem de dados linguísticos para a constituição de conjunto de dados que represente a diversidade linguística brasileira, e a realização de estudos sobre processamento linguístico da diversidade para o ajuste fino dos LLMs, contribuindo para a redução de assimetrias e preconceito resultantes do treino de LLMs com traduções do inglês.Downloads
Postado
Como Citar
Série
Copyright (c) 2025 Raquel Meister Ko Freitag, Marcia dos Santos Machado Vieira, Juliana Bertucci Barbosa, Miguel Oliveira Jr., Cleber Ataíde, Alana de Santana Correia, Amanda Post da Silveira, André Britto de Carvalho, Andréia Silva Araujo, Brayna Conceição dos Santos Cardoso, Claudia Andrea Rost Snichelotto, Eduardo Cardoso Martins, Eliabe dos Santos Procópio, Elisa Battisti, Elisângela Nogueira Teixeira, Fabiane Cristina Altino, Hadinei Ribeiro Batista, Hendrik Teixeira Macedo, Isabel de Oliveira e Silva Monguilhott, Iury Cleveston, Kendra Dickinson, Lilian Cristine Hübner, Luma da Silva Miranda, Mailce Borges Mota, Marcus Garcia de Sene, Marinete Rodrigues da Silva, Marta Deysiane Alves Faria Sousa, Monica Maria Guimarães Savedra, Pedro Ricardo Bin, Ronice Muller de Quadros, Sandro Marcío Drumond Alves Marengo, Silvana Silva de Farias Araújo, Túlio Sousa de Gois, Valéria Viana Sousa, Valter de Carvalho Dias

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Declaração de dados
-
Os dados de pesquisa estão contidos no próprio manuscrito





