Preprint / Versão 1

Plataforma da Diversidade Linguística Brasileira: Dados linguísticos para uma IA brasileira

article.authors691c2fc51c54d

DOI:

https://doi.org/10.1590/SciELOPreprints.11957

Palavras-chave:

LLM, Inteligéncia artificial, Linguística, Dados linguísticos

Resumo

A inteligência artificial generativa é baseada em modelos de língua em larga escala (LLMs), que são treinados com dados na maioria das vezes coletados sem consentimento ou infringindo direitos autorais. LLMs são treinados com bilhões de palavras e milhões de parâmetros, mas não sabemos exatamente quais textos são selecionados no treinamento ou quais parâmetros são controlados. Enquanto o aprendizado não supervisionado requer um grande volume de dados, demandando cada vez mais custos computacionais e gerando impactos energéticos, o aprendizado supervisionado, com dados estruturados e etiquetados pode otimizar esse processo; mais do que isso: o aprendizado supervisionado com dados estruturados e etiquetados resultantes de projetos de documentação linguística podem contribuir diretamente para o Plano Nacional de Inteligência Artificial: “Desenvolver modelos avançados de linguagem em português, com dados nacionais que abarcam nossa diversidade cultural, social e linguística, para fortalecer a soberania em IA.” No Brasil, além do português e suas variedades, há mais de 250 outras línguas (indígenas, de imigração, sinalizadas), negligenciadas na inclusão digital por falta de dados estruturados. O consórcio de laboratórios e grupos de pesquisa neste INCT visa a preparação de dados linguísticos para o treinamento de LLMs, considerando a diversidade linguística brasileira, com o desenvolvimento de um protocolo conjunto de coleta de dados linguísticos em campo, a ser replicado nos grupos e laboratórios longitudinalmente, assim como procedimentos de transcrição, alinhamento e etiquetagem de dados linguísticos para a constituição de conjunto de dados que represente a diversidade linguística brasileira, e a realização de estudos sobre processamento linguístico da diversidade para o ajuste fino dos LLMs, contribuindo para a redução de assimetrias e preconceito resultantes do treino de LLMs com traduções do inglês.

Downloads

Os dados de download ainda não estão disponíveis.

Postado

21/05/2025

Como Citar

Plataforma da Diversidade Linguística Brasileira: Dados linguísticos para uma IA brasileira. (2025). Em SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.11957

Série

Linguística, letras e artes

Declaração de dados

  • Os dados de pesquisa estão contidos no próprio manuscrito

Plaudit