O preprint foi publicado em outro meio.
DOI do preprint publicado https://doi.org/10.1590/1678-460x202339355159
Preprint / Versão 1

O corpus AMR-PT e a anotação semântica de sentenças desafiadoras de textos jornalísticos e opinativos

article.authors690e9339c07b2

DOI:

https://doi.org/10.1590/1678-460x202255159

Palavras-chave:

anotação de corpus, representação de conhecimento, semântica

Resumo

Abstract Meaning Representation (AMR) é uma linguagem de representação semântica bastante popular em processamento de línguas naturais (PLN). Ela codifica o significado das sentenças em grafos orientados (enraizados). Para o inglês, há um grande corpus com anotação AMR que subsidia métodos e aplicações de PLN. Para a anotação de corpora em línguas que não sejam o inglês, incluindo o português brasileiro, têm-se aplicado estratégias automáticas ou manuais. As automáticas se baseiam essencialmente no alinhamento entre corpora paralelos e na herança da anotação AMR, enquanto as estratégias manuais focalizam na adaptação das diretrizes originais de anotação AMR (para o inglês) em função da língua-alvo. Ambas as estratégias, automática ou manual, precisam lidar com certos fenômenos linguísticos desafiadores. Neste trabalho, exploram-se características do português para as quais o modelo AMR foi adaptado e apresentam-se dois corpora anotados: AMRNews, corpus composto por 870 sentenças anotadas, provenientes de textos jornalísticos, e o corpus OpiSums-PT-AMR, contendo 404 sentenças opinativas em AMR.

Postado

30/08/2022

Como Citar

O corpus AMR-PT e a anotação semântica de sentenças desafiadoras de textos jornalísticos e opinativos. (2022). Em SciELO Preprints. https://doi.org/10.1590/1678-460x202255159

Série

Linguística, letras e artes

Dados de financiamento

Plaudit