LinguagemSimples: Simplificação Automática de Decisões Judiciais com Modelos de Linguagem de Grande Escala

João Pedro Sansão; Michel Leles

doi:10.1590/SciELOPreprints.16575

article.authors6a34e13da7ea0

João Pedro Sansão Federal University of São João del-Rei https://orcid.org/0000-0003-0095-2629
- Conceptualization
- Data Curation
- Formal Analysis
- Methodology
- Software
- Supervision
- Validation
- Visualization
- Writing – Original Draft Preparation
- Writing – Review & Editing
Michel Leles Federal University of São João del-Rei
- Conceptualization
- Formal Analysis
- Supervision

DOI:

https://doi.org/10.1590/SciELOPreprints.16575

Palavras-chave:

Linguagem Simples, PLN Jurídico, Modelos de Linguagem, Decisões Judiciais, Avaliação de Simplificação, Processamento de Linguagem Natural

Resumo

A linguagem jurídica das decisões judiciais brasileiras, marcada por latinismos, jargões técnicos e orações subordinadas encadeadas, dificulta severamente a compreensão pelo cidadão comum. Este artigo apresenta o LinguagemSimples, um pipeline para simplificação automática de decisões judiciais utilizando modelos de linguagem de grande escala (LLMs). Foram avaliadas dezesseis técnicas: regras lexicais, Big Pickle (Few-Shot, Zero-Shot, CoT), Nemotron 3 Ultra (FS, ZS, CoT), DeepSeek V4 Flash (FS, ZS, CoT), Qwen 2.5 7B (FS, ZS, CoT), GPT-5.4 Mini (FS), GPT-5.4 (completo) (FS) e Gemini 3.5 Flash (FS) sobre 100 decisões reais do STF nos temas consumidor, família e previdenciário. As métricas incluem legibilidade (Flesch Adaptado, Gunning-Fog), similaridade lexical (ROUGE) e preservação semântica (BERTScore). Adicionalmente, uma análise LLM-as-Judge (GPT-5.4 Mini) avaliou 1.500 saídas simplificadas em cinco categorias de erro. Todos os LLMs superam a baseline de regras, que reduziu a legibilidade (-1,6 pontos Flesch). DeepSeek V4 Flash e Big Pickle obtiveram os maiores ganhos de legibilidade (+24,3 pontos cada), enquanto o Qwen 2.5 7B Zero-Shot liderou em preservação semântica (BERTScore mBERT F1=0,748). O Chain-of-Thought mostrou-se contraproducente em todos os modelos, sendo o Few-Shot a estratégia de prompt mais eficaz. O GPT-5.4 Mini ofereceu o melhor custo-benefício entre latência e qualidade (+16,4 ganho Flesch, 0,697 BERTScore F1, ~2,5 s/doc), e o GPT-5.4 (completo) alcançou o maior ROUGE-1 (0,583) e o segundo maior BERTScore (0,713). A análise LLM-as-Judge revelou taxas de alucinação entre 7% (GPT-5.4 completo) e 49% (Qwen 2.5 7B FS), com perda de nuances como a categoria de erro mais frequente em todas as técnicas. O tema consumidor mostrou-se mais favorável à simplificação (+28,2 pontos), enquanto família foi o mais desafiador. O corpus e o código estão disponíveis publicamente.