On-Premises vs. APIs de Nuvem para Modelos de Linguagem de Grande Porte (LLMs) em Sistemas Agênticos: Uma Análise Comparativa de Desempenho, Requisitos de Hardware e Viabilidade Econômica em 2026
DOI:
https://doi.org/10.1590/SciELOPreprints.16747Keywords:
LLM, On-premises, APIs de Nuvem, Sistemas Agênticos, Custo Total de Propriedade (TCO), Break-evenResumen
Este artigo apresenta uma análise comparativa sobre a viabilidade técnica, operacional e financeira da implantação de Modelos de Linguagem de Grande Porte (LLMs) localmente (on-premises) em comparação com o uso de APIs de nuvem, englobando serviços comerciais e de código aberto agregados. O estudo foca na aplicação desses modelos em sistemas agênticos, que se caracterizam por fluxos de execução contínuos, loops densos e alta frequência de chamadas sequenciais. Detalhamos os requisitos de hardware e VRAM necessários para executar modelos representativos das famílias Llama, Qwen e Gemma nas faixas de 8B, 32B, 70B e 405B de parâmetros. Adicionalmente, apresentamos dois estudos de caso quantitativos detalhados (uma estação de trabalho com 2× RTX 4090 e um servidor corporativo HGX com 8× H100 SXM5) para deduzir o custo real por milhão de tokens (MTok) sob diferentes níveis de utilização (10%, 50% e 100%). Por fim, desenvolvemos equações matemáticas de break-even econômico, revelando insights contraintuitivos sobre o mercado de nuvem e custos de eletricidade no cenário atual de 2026.
Downloads
Enviado
Postado
Cómo citar
Serie
Derechos de autor 2026 Joao Pedro Sansao

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Plaudit
Declaración de datos
-
Los datos de investigación están incluidos en el propio manuscrito


