Jabuticaba: The largest commercial corpus for LLMs in Portuguese

Marcellus Amadeus; William Alberto Cruz Castaneda; José Roberto Homeli da Silva; Rodrigo Scotti

doi:10.1590/SciELOPreprints.12696

article.authors6a54ea1434a4a

Marcellus Amadeus SoberanIA https://orcid.org/0009-0002-7777-2562
William Alberto Cruz Castaneda SoberanIA https://orcid.org/0000-0002-9803-1387
José Roberto Homeli da Silva SoberanIA https://orcid.org/0000-0002-8825-2362
Rodrigo Scotti SoberanIA https://orcid.org/0000-0002-9937-0129

DOI:

https://doi.org/10.1590/SciELOPreprints.12696

Palavras-chave:

Datasets, Large Language Model, Artificial intelligence, Natural Language Processing

Resumo

Os Grandes Modelos de Linguagem proporcionam um passo em direção a sistemas de comunicação inteligentes ao aproveitar grandes repositórios ou conjuntos de dados de conhecimento humano escrito para melhor prever e compreender o mundo. No entanto, a soberania da Inteligência Artificial é toda sobre dados de qualidade, pois os conjuntos de dados servem como a infraestrutura fundamental que sustenta o desenvolvimento de LLMs. Assim, este artigo apresenta o conjunto de dados Jabuticaba, o mais extenso corpus da língua portuguesa para LLMs com um tamanho total de dados de 669 GB e mais de 139 bilhões de tokens consistindo de palavras limpas e desduplicadas prontas para uso, incluindo uso comercial. Além disso, Jabuticaba alcança um tamanho comparável e superior a alguns conjuntos de dados estado da arte (SOTA) em outros idiomas. Este artigo descreve os detalhes metodológicos do pipeline utilizados para construí-lo para servir como uma referência abrangente para a comunidade de pesquisa em academia e indústria neste campo, além de contribuir para estudos futuros. Os recursos estão livremente disponíveis no HuggingFace: https://huggingface.co/datasets/soberania/jabuticaba.