Versificação Adversarial em Português como Operador de Jailbreak em LLMs
DOI:
https://doi.org/10.1590/SciELOPreprints.14563Keywords:
versificação adversarial, jailbreak em LLMs, vulnerabilidades de guardrails, alinhamento de modelosResumen
Evidências recentes mostram que a versificação de prompts constitui um mecanismo adversarial altamente eficaz contra LLMs alinhados. O estudo “Adversarial poetry as a universal single-turn jailbreak mechanism in large language models” demonstra que instruções recusadas em prosa tornam-se executáveis quando convertidas em verso, produzindo “até 18×” mais falhas de segurança em benchmarks derivados do MLCommons AILuminate. Poemas versificados manualmente alcançam cerca de 62% de ASR, e versões automatizadas ~43%, com alguns modelos ultrapassando 90% de sucesso em turno único. O efeito é estrutural — sistemas treinados com RLHF, Constitutional AI e pipelines híbridos apresentam degradação consistente sob variações semiótico-formais mínimas. A versificação desloca o prompt para regiões latentes pouco supervisionadas, revelando guardrails excessivamente dependentes de padrões de superfície. Essa dissociação entre robustez aparente e vulnerabilidade real expõe limitações profundas dos atuais regimes de alinhamento. A ausência de avaliações em português, língua de alta complexidade morfossintática, rica tradição métrico-prosódica e mais de 250 milhões de falantes, constitui uma lacuna crítica. Protocolos experimentais devem parametrizar escansão, métrica e variação prosódica para testar vulnerabilidades específicas a padrões lusófonos, atualmente ignorados.
Downloads
Postado
Cómo citar
Serie
Derechos de autor 2026 Joao Queiroz

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Revisión
No hay Revisión disponibles
Plaudit
Declaración de datos
-
Los datos de investigación están incluidos en el propio manuscrito


