Versificação Adversarial em Português como Operador de Jailbreak em LLMs

Joao Queiroz

doi:10.1590/SciELOPreprints.14563

article.authors6a05535e2f354

Joao Queiroz Universidade Federal de Juiz de Fora https://orcid.org/0000-0001-6978-4446

DOI:

https://doi.org/10.1590/SciELOPreprints.14563

Palavras-chave:

versificação adversarial, jailbreak em LLMs, vulnerabilidades de guardrails, alinhamento de modelos

Resumo

Evidências recentes mostram que a versificação de prompts constitui um mecanismo adversarial altamente eficaz contra LLMs alinhados. O estudo “Adversarial poetry as a universal single-turn jailbreak mechanism in large language models” demonstra que instruções recusadas em prosa tornam-se executáveis quando convertidas em verso, produzindo “até 18×” mais falhas de segurança em benchmarks derivados do MLCommons AILuminate. Poemas versificados manualmente alcançam cerca de 62% de ASR, e versões automatizadas ~43%, com alguns modelos ultrapassando 90% de sucesso em turno único. O efeito é estrutural — sistemas treinados com RLHF, Constitutional AI e pipelines híbridos apresentam degradação consistente sob variações semiótico-formais mínimas. A versificação desloca o prompt para regiões latentes pouco supervisionadas, revelando guardrails excessivamente dependentes de padrões de superfície. Essa dissociação entre robustez aparente e vulnerabilidade real expõe limitações profundas dos atuais regimes de alinhamento. A ausência de avaliações em português, língua de alta complexidade morfossintática, rica tradição métrico-prosódica e mais de 250 milhões de falantes, constitui uma lacuna crítica. Protocolos experimentais devem parametrizar escansão, métrica e variação prosódica para testar vulnerabilidades específicas a padrões lusófonos, atualmente ignorados.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

Joao Queiroz, Universidade Federal de Juiz de Fora

João Queiroz é professor da Universidade Federal de Juiz de Fora, desde 2009. Desenvolveu, entre 2003 e 2006, pós-doutorado em Sistemas Inteligentes, no Dept. de Computação e Automação (UNICAMP), e, entre 2007 e 2008, em Filosofia da Biologia, no Instituto de Biologia (UFBA) e no Departamento de Lógica e Filosofia da Ciência (Universidad del País Vasco, EPV). É autor, editor e co-editor de muitos livros e “special issues”, entre os quais “Peirce’s Extended Theory and Classification of Signs” (2019, Mouton), “Visualizando Signos” (2017, Blucher/FAPESP), “Diagrammatical Reasoning and Peircean Logic Representation” (2011, Mouton), “Genes, Information, Semiosis” (2009, Tartu University Press). É co-editor do projeto COMMENS - Digital Companion of C.S.Peirce (Creative Commons, 2014), em colaboração com a Universidade de Helsinque, membro do International Association for Cognitive Semiotics (IACS), pesquisador associado ao Linguistics and Language Practice Center, University of the Free State (África do Sul) e ao Centre for Intermedial Studies, Linnaeus University (Suécia).