On-Premises vs. APIs de Nuvem para Modelos de Linguagem de Grande Porte (LLMs) em Sistemas Agênticos: Uma Análise Comparativa de Desempenho, Requisitos de Hardware e Viabilidade Econômica em 2026

Joao Pedro Sansao

doi:10.1590/SciELOPreprints.16747

Preprint / Versión 1

On-Premises vs. APIs de Nuvem para Modelos de Linguagem de Grande Porte (LLMs) em Sistemas Agênticos: Uma Análise Comparativa de Desempenho, Requisitos de Hardware e Viabilidade Econômica em 2026

article.authors6a46c1f84d7cc

Joao Pedro Sansao Federal University of São João del-Rei https://orcid.org/0000-0003-0095-2629
- Conceptualization
- Methodology
- Formal Analysis
- Investigation
- Writing – Original Draft Preparation
- Writing – Review & Editing

DOI:

https://doi.org/10.1590/SciELOPreprints.16747

Keywords:

LLM, On-premises, APIs de Nuvem, Sistemas Agênticos, Custo Total de Propriedade (TCO), Break-even

Resumen

Este artigo apresenta uma análise comparativa sobre a viabilidade técnica, operacional e financeira da implantação de Modelos de Linguagem de Grande Porte (LLMs) localmente (on-premises) em comparação com o uso de APIs de nuvem, englobando serviços comerciais e de código aberto agregados. O estudo foca na aplicação desses modelos em sistemas agênticos, que se caracterizam por fluxos de execução contínuos, loops densos e alta frequência de chamadas sequenciais. Detalhamos os requisitos de hardware e VRAM necessários para executar modelos representativos das famílias Llama, Qwen e Gemma nas faixas de 8B, 32B, 70B e 405B de parâmetros. Adicionalmente, apresentamos dois estudos de caso quantitativos detalhados (uma estação de trabalho com 2× RTX 4090 e um servidor corporativo HGX com 8× H100 SXM5) para deduzir o custo real por milhão de tokens (MTok) sob diferentes níveis de utilização (10%, 50% e 100%). Por fim, desenvolvemos equações matemáticas de break-even econômico, revelando insights contraintuitivos sobre o mercado de nuvem e custos de eletricidade no cenário atual de 2026.

Downloads

Los datos de descarga aún no están disponibles.

PDF (Portugués)

Enviado

30/06/2026

Postado

02/07/2026

Cómo citar

On-Premises vs. APIs de Nuvem para Modelos de Linguagem de Grande Porte (LLMs) em Sistemas Agênticos: Uma Análise Comparativa de Desempenho, Requisitos de Hardware e Viabilidade Econômica em 2026. (2026). In SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.16747