Preprint / Versión 1

On-Premises vs. APIs de Nuvem para Modelos de Linguagem de Grande Porte (LLMs) em Sistemas Agênticos: Uma Análise Comparativa de Desempenho, Requisitos de Hardware e Viabilidade Econômica em 2026

article.authors6a46c1f84d7cc

  • Joao Pedro Sansao Federal University of São João del-Rei image/svg+xml https://orcid.org/0000-0003-0095-2629
    • Conceptualization
    • Methodology
    • Formal Analysis
    • Investigation
    • Writing – Original Draft Preparation
    • Writing – Review & Editing

DOI:

https://doi.org/10.1590/SciELOPreprints.16747

Keywords:

LLM, On-premises, APIs de Nuvem, Sistemas Agênticos, Custo Total de Propriedade (TCO), Break-even

Resumen

Este artigo apresenta uma análise comparativa sobre a viabilidade técnica, operacional e financeira da implantação de Modelos de Linguagem de Grande Porte (LLMs) localmente (on-premises) em comparação com o uso de APIs de nuvem, englobando serviços comerciais e de código aberto agregados. O estudo foca na aplicação desses modelos em sistemas agênticos, que se caracterizam por fluxos de execução contínuos, loops densos e alta frequência de chamadas sequenciais. Detalhamos os requisitos de hardware e VRAM necessários para executar modelos representativos das famílias Llama, Qwen e Gemma nas faixas de 8B, 32B, 70B e 405B de parâmetros. Adicionalmente, apresentamos dois estudos de caso quantitativos detalhados (uma estação de trabalho com 2× RTX 4090 e um servidor corporativo HGX com 8× H100 SXM5) para deduzir o custo real por milhão de tokens (MTok) sob diferentes níveis de utilização (10%, 50% e 100%). Por fim, desenvolvemos equações matemáticas de break-even econômico, revelando insights contraintuitivos sobre o mercado de nuvem e custos de eletricidade no cenário atual de 2026.

Downloads

Los datos de descarga aún no están disponibles.

Enviado

30/06/2026

Postado

02/07/2026

Cómo citar

On-Premises vs. APIs de Nuvem para Modelos de Linguagem de Grande Porte (LLMs) em Sistemas Agênticos: Uma Análise Comparativa de Desempenho, Requisitos de Hardware e Viabilidade Econômica em 2026. (2026). In SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.16747

Serie

Ciencias Exactas y de la Tierra

Plaudit

Declaración de datos

  • Los datos de investigación están incluidos en el propio manuscrito