Preprint / Versão 1

LinguagemSimples: Simplificação Automática de Decisões Judiciais com Modelos de Linguagem de Grande Escala

article.authors6a34e13da7ea0

  • João Pedro Sansão Federal University of São João del-Rei image/svg+xml https://orcid.org/0000-0003-0095-2629
    • Conceptualization
    • Data Curation
    • Formal Analysis
    • Methodology
    • Software
    • Supervision
    • Validation
    • Visualization
    • Writing – Original Draft Preparation
    • Writing – Review & Editing
  • Michel Leles Federal University of São João del-Rei image/svg+xml
    • Conceptualization
    • Formal Analysis
    • Supervision

DOI:

https://doi.org/10.1590/SciELOPreprints.16575

Palavras-chave:

Linguagem Simples, PLN Jurídico, Modelos de Linguagem, Decisões Judiciais, Avaliação de Simplificação, Processamento de Linguagem Natural

Resumo

A linguagem jurídica das decisões judiciais brasileiras, marcada por latinismos, jargões técnicos e orações subordinadas encadeadas, dificulta severamente a compreensão pelo cidadão comum. Este artigo apresenta o LinguagemSimples, um pipeline para simplificação automática de decisões judiciais utilizando modelos de linguagem de grande escala (LLMs). Foram avaliadas dezesseis técnicas: regras lexicais, Big Pickle (Few-Shot, Zero-Shot, CoT), Nemotron 3 Ultra (FS, ZS, CoT), DeepSeek V4 Flash (FS, ZS, CoT), Qwen 2.5 7B (FS, ZS, CoT), GPT-5.4 Mini (FS), GPT-5.4 (completo) (FS) e Gemini 3.5 Flash (FS) sobre 100 decisões reais do STF nos temas consumidor, família e previdenciário. As métricas incluem legibilidade (Flesch Adaptado, Gunning-Fog), similaridade lexical (ROUGE) e preservação semântica (BERTScore). Adicionalmente, uma análise LLM-as-Judge (GPT-5.4 Mini) avaliou 1.500 saídas simplificadas em cinco categorias de erro. Todos os LLMs superam a baseline de regras, que reduziu a legibilidade (-1,6 pontos Flesch). DeepSeek V4 Flash e Big Pickle obtiveram os maiores ganhos de legibilidade (+24,3 pontos cada), enquanto o Qwen 2.5 7B Zero-Shot liderou em preservação semântica (BERTScore mBERT F1=0,748). O Chain-of-Thought mostrou-se contraproducente em todos os modelos, sendo o Few-Shot a estratégia de prompt mais eficaz. O GPT-5.4 Mini ofereceu o melhor custo-benefício entre latência e qualidade (+16,4 ganho Flesch, 0,697 BERTScore F1, ~2,5 s/doc), e o GPT-5.4 (completo) alcançou o maior ROUGE-1 (0,583) e o segundo maior BERTScore (0,713). A análise LLM-as-Judge revelou taxas de alucinação entre 7% (GPT-5.4 completo) e 49% (Qwen 2.5 7B FS), com perda de nuances como a categoria de erro mais frequente em todas as técnicas. O tema consumidor mostrou-se mais favorável à simplificação (+28,2 pontos), enquanto família foi o mais desafiador. O corpus e o código estão disponíveis publicamente.

Downloads

Os dados de download ainda não estão disponíveis.

Postado

18/06/2026

Como Citar

LinguagemSimples: Simplificação Automática de Decisões Judiciais com Modelos de Linguagem de Grande Escala. (2026). Em SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.16575

Série

Ciências Exatas e da Terra

Plaudit

Declaração de dados

  • Os dados de pesquisa estão disponíveis em um ou mais repositório de dados