Jabuticaba: The largest commercial corpus for LLMs in Portuguese

Marcellus Amadeus; William Alberto Cruz Castaneda; José Roberto Homeli da Silva; Rodrigo Scotti

doi:10.1590/SciELOPreprints.12696

article.authors6a550185a2233

Marcellus Amadeus SoberanIA https://orcid.org/0009-0002-7777-2562
William Alberto Cruz Castaneda SoberanIA https://orcid.org/0000-0002-9803-1387
José Roberto Homeli da Silva SoberanIA https://orcid.org/0000-0002-8825-2362
Rodrigo Scotti SoberanIA https://orcid.org/0000-0002-9937-0129

DOI:

https://doi.org/10.1590/SciELOPreprints.12696

Keywords:

Datasets, Large Language Model, Artificial intelligence, Natural Language Processing

Resumen

Los Grandes Modelos de Lenguaje (LLMs) representan un paso hacia sistemas de comunicación inteligentes al aprovechar grandes repositorios o conjuntos de datos de conocimiento humano escrito para predecir y comprender mejor el mundo. Sin embargo, la soberanía de la Inteligencia Artificial radica fundamentalmente en la calidad de los datos, ya que los conjuntos de datos sirven como la infraestructura fundacional que sustenta el desarrollo de los LLMs. Por ello, este artículo presenta el dataset Jabuticaba, el corpus en lengua portuguesa más extenso para LLMs, con un tamaño total de datos de 669 GB y más de 139 mil millones de tokens que consisten en palabras limpias y deduplicadas, listas para su uso, incluyendo el uso comercial. Además, Jabuticaba alcanza un tamaño comparable e incluso superior al de algunos conjuntos de datos de última generación (SOTA) en otros idiomas. Este trabajo describe en detalle el proceso metodológico utilizado para construirlo, con el fin de servir como una referencia completa para la comunidad de investigación en la academia y la industria en este campo, así como para contribuir a futuros estudios. Los recursos están disponibles gratuitamente en HuggingFace: https://huggingface.co/datasets/soberania/jabuticaba.