The AMR-PT corpus and the semantic annotation of challenging sentences from journalistic and opinion texts

Marcio Lima Inácio; Marco Antonio Sobrevilla Cabezudo; Renata Ramisch; Ariani Di Felippo; Thiago Alexandre Salgueiro Pardo

doi:10.1590/1678-460x202255159

O preprint foi publicado em outro meio.
DOI do preprint publicado https://doi.org/10.1590/1678-460x202339355159

Preprint / Versão 1

O corpus AMR-PT e a anotação semântica de sentenças desafiadoras de textos jornalísticos e opinativos

article.authors6a68fe58ad07d

Marcio Lima Inácio Universidade de São Paulo e Universidade de Coimbra https://orcid.org/0000-0002-0875-4574
Marco Antonio Sobrevilla Cabezudo Universidade de São Paulo https://orcid.org/0000-0001-7625-9914
Renata Ramisch Redação Nota 1000 https://orcid.org/0000-0003-3372-6150
Ariani Di Felippo Universidade Federal de São Carlos https://orcid.org/0000-0002-4566-9352
Thiago Alexandre Salgueiro Pardo Universidade de São Paulo https://orcid.org/0000-0003-2111-1319

DOI:

https://doi.org/10.1590/1678-460x202255159

Palavras-chave:

anotação de corpus, representação de conhecimento, semântica

Resumo

Abstract Meaning Representation (AMR) é uma linguagem de representação semântica bastante popular em processamento de línguas naturais (PLN). Ela codifica o significado das sentenças em grafos orientados (enraizados). Para o inglês, há um grande corpus com anotação AMR que subsidia métodos e aplicações de PLN. Para a anotação de corpora em línguas que não sejam o inglês, incluindo o português brasileiro, têm-se aplicado estratégias automáticas ou manuais. As automáticas se baseiam essencialmente no alinhamento entre corpora paralelos e na herança da anotação AMR, enquanto as estratégias manuais focalizam na adaptação das diretrizes originais de anotação AMR (para o inglês) em função da língua-alvo. Ambas as estratégias, automática ou manual, precisam lidar com certos fenômenos linguísticos desafiadores. Neste trabalho, exploram-se características do português para as quais o modelo AMR foi adaptado e apresentam-se dois corpora anotados: AMRNews, corpus composto por 870 sentenças anotadas, provenientes de textos jornalísticos, e o corpus OpiSums-PT-AMR, contendo 404 sentenças opinativas em AMR.

Downloads

Os dados de download ainda não estão disponíveis.

PDF (Inglês)

Enviado

30/08/2022

Postado

30/08/2022

Como Citar

O corpus AMR-PT e a anotação semântica de sentenças desafiadoras de textos jornalísticos e opinativos. (2022). Em SciELO Preprints. https://doi.org/10.1590/1678-460x202255159