Jabuticaba: The largest commercial corpus for LLMs in Portuguese
DOI:
https://doi.org/10.1590/SciELOPreprints.12696Palavras-chave:
Datasets, Large Language Model, Artificial intelligence, Natural Language ProcessingResumo
Os Grandes Modelos de Linguagem proporcionam um passo em direção a sistemas de comunicação inteligentes ao aproveitar grandes repositórios ou conjuntos de dados de conhecimento humano escrito para melhor prever e compreender o mundo. No entanto, a soberania da Inteligência Artificial é toda sobre dados de qualidade, pois os conjuntos de dados servem como a infraestrutura fundamental que sustenta o desenvolvimento de LLMs. Assim, este artigo apresenta o conjunto de dados Jabuticaba, o mais extenso corpus da língua portuguesa para LLMs com um tamanho total de dados de 669 GB e mais de 139 bilhões de tokens consistindo de palavras limpas e desduplicadas prontas para uso, incluindo uso comercial. Além disso, Jabuticaba alcança um tamanho comparável e superior a alguns conjuntos de dados estado da arte (SOTA) em outros idiomas. Este artigo descreve os detalhes metodológicos do pipeline utilizados para construí-lo para servir como uma referência abrangente para a comunidade de pesquisa em academia e indústria neste campo, além de contribuir para estudos futuros. Os recursos estão livremente disponíveis no HuggingFace: https://huggingface.co/datasets/soberania/jabuticaba.
Downloads
Postado
Como Citar
Série
Copyright (c) 2025 William Alberto Cruz Castaneda, Marcellus Amedeus, José Roberto Homeli da Silva, Rodrigo Scotti

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Declaração de dados
-
Os dados de pesquisa estão contidos no próprio manuscrito





