Preprint / Versão 1

Jabuticaba: The largest commercial corpus for LLMs in Portuguese

article.authors698a2a934586d

DOI:

https://doi.org/10.1590/SciELOPreprints.12696

Palavras-chave:

Datasets, Large Language Model, Artificial intelligence, Natural Language Processing

Resumo

Os Grandes Modelos de Linguagem proporcionam um passo em direção a sistemas de comunicação inteligentes ao aproveitar grandes repositórios ou conjuntos de dados de conhecimento humano escrito para melhor prever e compreender o mundo. No entanto, a soberania da Inteligência Artificial é toda sobre dados de qualidade, pois os conjuntos de dados servem como a infraestrutura fundamental que sustenta o desenvolvimento de LLMs. Assim, este artigo apresenta o conjunto de dados Jabuticaba, o mais extenso corpus da língua portuguesa para LLMs com um tamanho total de dados de 669 GB e mais de 139 bilhões de tokens consistindo de palavras limpas e desduplicadas prontas para uso, incluindo uso comercial. Além disso, Jabuticaba alcança um tamanho comparável e superior a alguns conjuntos de dados estado da arte (SOTA) em outros idiomas. Este artigo descreve os detalhes metodológicos do pipeline utilizados para construí-lo para servir como uma referência abrangente para a comunidade de pesquisa em academia e indústria neste campo, além de contribuir para estudos futuros. Os recursos estão livremente disponíveis no HuggingFace: https://huggingface.co/datasets/soberania/jabuticaba.

Downloads

Os dados de download ainda não estão disponíveis.

Postado

05/08/2025

Como Citar

Jabuticaba: The largest commercial corpus for LLMs in Portuguese. (2025). Em SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.12696

Série

Engenharias

Declaração de dados

  • Os dados de pesquisa estão contidos no próprio manuscrito

Plaudit