O preprint foi publicado em um periódico como um artigo
DOI do artigo publicado https://doi.org/10.1590/1678-460x202339355159
Preprint / Versão 1

O corpus AMR-PT e a anotação semântica de sentenças desafiadoras de textos jornalísticos e opinativos

##article.authors##

DOI:

https://doi.org/10.1590/1678-460x202255159

Keywords:

anotação de corpus, representação de conhecimento, semântica

Resumo

Abstract Meaning Representation (AMR) é uma linguagem de representação semântica bastante popular em processamento de línguas naturais (PLN). Ela codifica o significado das sentenças em grafos orientados (enraizados). Para o inglês, há um grande corpus com anotação AMR que subsidia métodos e aplicações de PLN. Para a anotação de corpora em línguas que não sejam o inglês, incluindo o português brasileiro, têm-se aplicado estratégias automáticas ou manuais. As automáticas se baseiam essencialmente no alinhamento entre corpora paralelos e na herança da anotação AMR, enquanto as estratégias manuais focalizam na adaptação das diretrizes originais de anotação AMR (para o inglês) em função da língua-alvo. Ambas as estratégias, automática ou manual, precisam lidar com certos fenômenos linguísticos desafiadores. Neste trabalho, exploram-se características do português para as quais o modelo AMR foi adaptado e apresentam-se dois corpora anotados: AMRNews, corpus composto por 870 sentenças anotadas, provenientes de textos jornalísticos, e o corpus OpiSums-PT-AMR, contendo 404 sentenças opinativas em AMR.

Downloads

Não há dados estatísticos.

Métricas

Carregando Métricas ...

Postado

30/08/2022

Como Citar

Inácio, M. L., Cabezudo, M. A. S., Ramisch, R., Di Felippo, A., & Pardo, T. A. S. (2022). O corpus AMR-PT e a anotação semântica de sentenças desafiadoras de textos jornalísticos e opinativos. In SciELO Preprints. https://doi.org/10.1590/1678-460x202255159

Série

Linguística, letras e artes

Plaudit

Dados de financiamento