Preprint / Versão 1

Word2Vec: Um algoritmo saussuriano

##article.authors##

DOI:

https://doi.org/10.1590/SciELOPreprints.11678

Keywords:

Saussure, Processamento de Linguagem Natural, Word2Vec, Teoria do Valor

Resumo

Este artigo propõe uma leitura do funcionamento do Word2Vec, um algoritmo para geração de embeddings de palavras, à luz da Teoria do Valor (TdV) de Ferdinand de Saussure. O Word2Vec, nos últimos anos, tem sido bastante útil para diversas tarefas de PLN, tais como classificação de textos, análise de sentimentos e cálculos de probabilidade de ocorrências, devido ao manejo de vetores de alta dimensão. Defendo, portanto, que, por meio deste modelo de linguagem, é possível notarmos que algumas noções teóricas da linguística sausssuriana, a saber, o sistema, o signo e o valor, continuam sendo produtivos para refletir sobre aspectos teóricos e epistemológicos da determinação de significados nas línguas naturais; bem como de que forma esses sentidos parecem ser emulados por técnicas modernas de PLN, a exemplo do Word2Vec. Partimos de uma crítica às limitações do TF-IDF, passando pela influência da Semântica Distribucional e da Hipótese Distribucional em modelos vetoriais de linguagem modernos, para, enfim, propor que o Word2Vec apresenta indícios de poder operacionalizar, em níveis de semântica computacional, aquilo que Saussure já formulara conceitualmente no início do século XX, a saber: a ideia de que o significado de uma palavra não é fixo nem individual, mas relacional e determinado pelos valores semelhantes e dessemelhantes que a cercam. Nesse sentido, as fontes saussurianas mobilizadas, nesta pesquisa, para a delimitação dos conceitos abordados foram: o Curso de Linguística Geral; o conjunto de manuscritos Notes pour le 3e Cours; e o caderno de Émile Constantin, ouvinte do Terceiro Curso de Linguística Geral ministrado por Saussure em Genebra, entre 1910-1911. Nosso objetivo, assim, é propor que as noções saussurianas de similia e dissimilia podem ser percebidas nos bastidores teóricos do Word2Vec, promovendo uma aproximação entre o saussurianismo e o PLN contemporâneo. A hipótese que guia este trabalho, portanto, é a de que o Word2Vec pode ser lido como um algoritmo saussuriano, por aplicar computacionalmente a dinâmica dos valores linguísticos para emular a forma com que significados são determinados por meio da relação entre as palavras, conforme antecipara o mestre genebrino ainda no século passado.

Downloads

Não há dados estatísticos.

Métricas

Carregando Métricas ...

Postado

17/04/2025

Como Citar

Giamarusti, L. (2025). Word2Vec: Um algoritmo saussuriano. In SciELO Preprints. https://doi.org/10.1590/SciELOPreprints.11678

Série

Linguística, letras e artes

Plaudit

Declaração de dados

  • Os dados de pesquisa estão contidos no próprio manuscrito