Versificação Adversarial em Português como Operador de Jailbreak em LLMs

Joao Queiroz

doi:10.1590/SciELOPreprints.14563

article.authors6a6117c8049a3

Joao Queiroz Universidade Federal de Juiz de Fora https://orcid.org/0000-0001-6978-4446

DOI:

https://doi.org/10.1590/SciELOPreprints.14563

Keywords:

versificação adversarial, jailbreak em LLMs, vulnerabilidades de guardrails, alinhamento de modelos

Resumen

Evidências recentes mostram que a versificação de prompts constitui um mecanismo adversarial altamente eficaz contra LLMs alinhados. O estudo “Adversarial poetry as a universal single-turn jailbreak mechanism in large language models” demonstra que instruções recusadas em prosa tornam-se executáveis quando convertidas em verso, produzindo “até 18×” mais falhas de segurança em benchmarks derivados do MLCommons AILuminate. Poemas versificados manualmente alcançam cerca de 62% de ASR, e versões automatizadas ~43%, com alguns modelos ultrapassando 90% de sucesso em turno único. O efeito é estrutural — sistemas treinados com RLHF, Constitutional AI e pipelines híbridos apresentam degradação consistente sob variações semiótico-formais mínimas. A versificação desloca o prompt para regiões latentes pouco supervisionadas, revelando guardrails excessivamente dependentes de padrões de superfície. Essa dissociação entre robustez aparente e vulnerabilidade real expõe limitações profundas dos atuais regimes de alinhamento. A ausência de avaliações em português, língua de alta complexidade morfossintática, rica tradição métrico-prosódica e mais de 250 milhões de falantes, constitui uma lacuna crítica. Protocolos experimentais devem parametrizar escansão, métrica e variação prosódica para testar vulnerabilidades específicas a padrões lusófonos, atualmente ignorados.