Jabuticaba: The largest commercial corpus for LLMs in Portuguese
DOI:
https://doi.org/10.1590/SciELOPreprints.12696Keywords:
Datasets, Large Language Model, Artificial intelligence, Natural Language ProcessingResumen
Los Grandes Modelos de Lenguaje (LLMs) representan un paso hacia sistemas de comunicación inteligentes al aprovechar grandes repositorios o conjuntos de datos de conocimiento humano escrito para predecir y comprender mejor el mundo. Sin embargo, la soberanía de la Inteligencia Artificial radica fundamentalmente en la calidad de los datos, ya que los conjuntos de datos sirven como la infraestructura fundacional que sustenta el desarrollo de los LLMs. Por ello, este artículo presenta el dataset Jabuticaba, el corpus en lengua portuguesa más extenso para LLMs, con un tamaño total de datos de 669 GB y más de 139 mil millones de tokens que consisten en palabras limpias y deduplicadas, listas para su uso, incluyendo el uso comercial. Además, Jabuticaba alcanza un tamaño comparable e incluso superior al de algunos conjuntos de datos de última generación (SOTA) en otros idiomas. Este trabajo describe en detalle el proceso metodológico utilizado para construirlo, con el fin de servir como una referencia completa para la comunidad de investigación en la academia y la industria en este campo, así como para contribuir a futuros estudios. Los recursos están disponibles gratuitamente en HuggingFace: https://huggingface.co/datasets/soberania/jabuticaba.
Downloads
Postado
Cómo citar
Serie
Derechos de autor 2025 William Alberto Cruz Castaneda, Marcellus Amedeus, José Roberto Homeli da Silva, Rodrigo Scotti

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Plaudit
Declaración de datos
-
Los datos de investigación están incluidos en el propio manuscrito


