Preprint / Versión 1

Jabuticaba: The largest commercial corpus for LLMs in Portuguese

article.authors6a15e00fef0f8

DOI:

https://doi.org/10.1590/SciELOPreprints.12696

Keywords:

Datasets, Large Language Model, Artificial intelligence, Natural Language Processing

Resumen

Los Grandes Modelos de Lenguaje (LLMs) representan un paso hacia sistemas de comunicación inteligentes al aprovechar grandes repositorios o conjuntos de datos de conocimiento humano escrito para predecir y comprender mejor el mundo. Sin embargo, la soberanía de la Inteligencia Artificial radica fundamentalmente en la calidad de los datos, ya que los conjuntos de datos sirven como la infraestructura fundacional que sustenta el desarrollo de los LLMs. Por ello, este artículo presenta el dataset Jabuticaba, el corpus en lengua portuguesa más extenso para LLMs, con un tamaño total de datos de 669 GB y más de 139 mil millones de tokens que consisten en palabras limpias y deduplicadas, listas para su uso, incluyendo el uso comercial. Además, Jabuticaba alcanza un tamaño comparable e incluso superior al de algunos conjuntos de datos de última generación (SOTA) en otros idiomas. Este trabajo describe en detalle el proceso metodológico utilizado para construirlo, con el fin de servir como una referencia completa para la comunidad de investigación en la academia y la industria en este campo, así como para contribuir a futuros estudios. Los recursos están disponibles gratuitamente en HuggingFace: https://huggingface.co/datasets/soberania/jabuticaba.

Downloads

Los datos de descarga aún no están disponibles.

Postado

05/08/2025

Cómo citar

Jabuticaba: The largest commercial corpus for LLMs in Portuguese. (2025). In SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.12696

Serie

Ingeniería

Plaudit

Declaración de datos

  • Los datos de investigación están incluidos en el propio manuscrito