DOI do artigo publicado https://doi.org/10.1590/1678-460x202339355159
O corpus AMR-PT e a anotação semântica de sentenças desafiadoras de textos jornalísticos e opinativos
DOI:
https://doi.org/10.1590/1678-460x202255159Keywords:
anotação de corpus, representação de conhecimento, semânticaResumo
Abstract Meaning Representation (AMR) é uma linguagem de representação semântica bastante popular em processamento de línguas naturais (PLN). Ela codifica o significado das sentenças em grafos orientados (enraizados). Para o inglês, há um grande corpus com anotação AMR que subsidia métodos e aplicações de PLN. Para a anotação de corpora em línguas que não sejam o inglês, incluindo o português brasileiro, têm-se aplicado estratégias automáticas ou manuais. As automáticas se baseiam essencialmente no alinhamento entre corpora paralelos e na herança da anotação AMR, enquanto as estratégias manuais focalizam na adaptação das diretrizes originais de anotação AMR (para o inglês) em função da língua-alvo. Ambas as estratégias, automática ou manual, precisam lidar com certos fenômenos linguísticos desafiadores. Neste trabalho, exploram-se características do português para as quais o modelo AMR foi adaptado e apresentam-se dois corpora anotados: AMRNews, corpus composto por 870 sentenças anotadas, provenientes de textos jornalísticos, e o corpus OpiSums-PT-AMR, contendo 404 sentenças opinativas em AMR.
Downloads
Métricas
Postado
Como Citar
Série
Copyright (c) 2022 Marcio Lima Inácio, Marco Antonio Sobrevilla Cabezudo, Renata Ramisch, Ariani Di Felippo, Thiago Alexandre Salgueiro Pardo
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Plaudit
Dados de financiamento
-
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Números do Financiamento PRP #668 -
Fundação de Amparo à Pesquisa do Estado de São Paulo
Números do Financiamento 2019/07665-4