Preprint / Versión 1

Word2Vec: Um algoritmo saussuriano

article.authors6a05a6e01c62b

DOI:

https://doi.org/10.1590/SciELOPreprints.11678

Keywords:

Saussure, Processamento de Linguagem Natural, Word2Vec, Teoria do Valor

Resumen

Este artículo propone una lectura del funcionamiento de Word2Vec, un algoritmo para la generación de embeddings de palabras, a la luz de la Teoría del Valor (TdV) de Ferdinand de Saussure. Word2Vec, en los últimos años, ha sido bastante útil para diversas tareas de PLN, tales como la clasificación de textos, el análisis de sentimientos y el cálculo de probabilidades de ocurrencia, debido al manejo de vectores de alta dimensión. Defiendo, por lo tanto, que, a través de este modelo de lenguaje, es posible observar que algunas nociones teóricas de la lingüística saussuriana —a saber, el sistema, el signo y el valor— continúan siendo productivas para reflexionar sobre aspectos teóricos y epistemológicos de la determinación de significados en las lenguas naturales, así como sobre la forma en que estos sentidos parecen ser emulados por técnicas modernas de PLN, como el Word2Vec. Partimos de una crítica a las limitaciones del TF-IDF, pasando por la influencia de la Semántica Distribucional y de la Hipótesis Distribucional en los modelos vectoriales de lenguaje modernos, para finalmente proponer que Word2Vec presenta indicios de poder operacionalizar, en niveles de semántica computacional, aquello que Saussure ya había formulado conceptualmente a inicios del siglo XX: la idea de que el significado de una palabra no es fijo ni individual, sino relacional y determinado por los valores de semejanza y diferencia que la rodean. En este sentido, las fuentes saussurianas movilizadas en esta investigación para la delimitación de los conceptos abordados fueron: el Curso de Lingüística General; el conjunto de manuscritos Notes pour le 3e Cours; y el cuaderno de Émile Constantin, oyente del Tercer Curso de Lingüística General impartido por Saussure en Ginebra, entre 1910 y 1911. Nuestro objetivo, así, es proponer que las nociones saussurianas de similia y dissimilía pueden percibirse en los bastidores teóricos de Word2Vec, promoviendo una aproximación entre el saussurianismo y el PLN contemporáneo. La hipótesis que guía este trabajo, por lo tanto, es que Word2Vec puede ser leído como un algoritmo saussuriano, por aplicar computacionalmente la dinámica de los valores lingüísticos para emular la forma en que los significados son determinados mediante la relación entre las palabras, tal como lo anticipara el maestro ginebrino ya en el siglo pasado.

Downloads

Los datos de descarga aún no están disponibles.

Postado

17/04/2025

Cómo citar

Serie

Linguística, letras y artes

Plaudit

Declaración de datos

  • Los datos de investigación están incluidos en el propio manuscrito