Versificação Adversarial em Português como Operador de Jailbreak em LLMs
DOI:
https://doi.org/10.1590/SciELOPreprints.14563Palavras-chave:
versificação adversarial, jailbreak em LLMs, vulnerabilidades de guardrails, alinhamento de modelosResumo
Evidências recentes mostram que a versificação de prompts constitui um mecanismo adversarial altamente eficaz contra LLMs alinhados. O estudo “Adversarial poetry as a universal single-turn jailbreak mechanism in large language models” demonstra que instruções recusadas em prosa tornam-se executáveis quando convertidas em verso, produzindo “até 18×” mais falhas de segurança em benchmarks derivados do MLCommons AILuminate. Poemas versificados manualmente alcançam cerca de 62% de ASR, e versões automatizadas ~43%, com alguns modelos ultrapassando 90% de sucesso em turno único. O efeito é estrutural — sistemas treinados com RLHF, Constitutional AI e pipelines híbridos apresentam degradação consistente sob variações semiótico-formais mínimas. A versificação desloca o prompt para regiões latentes pouco supervisionadas, revelando guardrails excessivamente dependentes de padrões de superfície. Essa dissociação entre robustez aparente e vulnerabilidade real expõe limitações profundas dos atuais regimes de alinhamento. A ausência de avaliações em português, língua de alta complexidade morfossintática, rica tradição métrico-prosódica e mais de 250 milhões de falantes, constitui uma lacuna crítica. Protocolos experimentais devem parametrizar escansão, métrica e variação prosódica para testar vulnerabilidades específicas a padrões lusófonos, atualmente ignorados.
Downloads
Postado
Como Citar
Série
Copyright (c) 2026 Joao Queiroz

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Avaliações
Nenhuma avaliação disponível
Plaudit
Declaração de dados
-
Os dados de pesquisa estão contidos no próprio manuscrito


