Preprint / Versión 1

Versificação Adversarial em Português como Operador de Jailbreak em LLMs

article.authors6a0538dad2f6c

DOI:

https://doi.org/10.1590/SciELOPreprints.14563

Keywords:

versificação adversarial, jailbreak em LLMs, vulnerabilidades de guardrails, alinhamento de modelos

Resumen

Evidências recentes mostram que a versificação de prompts constitui um mecanismo adversarial altamente eficaz contra LLMs alinhados. O estudo “Adversarial poetry as a universal single-turn jailbreak mechanism in large language models” demonstra que instruções recusadas em prosa tornam-se executáveis quando convertidas em verso, produzindo “até 18×” mais falhas de segurança em benchmarks derivados do MLCommons AILuminate. Poemas versificados manualmente alcançam cerca de 62% de ASR, e versões automatizadas ~43%, com alguns modelos ultrapassando 90% de sucesso em turno único. O efeito é estrutural — sistemas treinados com RLHF, Constitutional AI e pipelines híbridos apresentam degradação consistente sob variações semiótico-formais mínimas. A versificação desloca o prompt para regiões latentes pouco supervisionadas, revelando guardrails excessivamente dependentes de padrões de superfície. Essa dissociação entre robustez aparente e vulnerabilidade real expõe limitações profundas dos atuais regimes de alinhamento. A ausência de avaliações em português, língua de alta complexidade morfossintática, rica tradição métrico-prosódica e mais de 250 milhões de falantes, constitui uma lacuna crítica. Protocolos experimentais devem parametrizar escansão, métrica e variação prosódica para testar vulnerabilidades específicas a padrões lusófonos, atualmente ignorados.

Downloads

Los datos de descarga aún no están disponibles.

Biografía del autor/a

Joao Queiroz, Universidade Federal de Juiz de Fora

 

 

 

Postado

13/01/2026

Cómo citar

Versificação Adversarial em Português como Operador de Jailbreak em LLMs. (2026). In SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.14563

Serie

Linguística, letras y artes

Revisión

No hay Revisión disponibles

Plaudit

Declaración de datos

  • Los datos de investigación están incluidos en el propio manuscrito