Word2Vec: Um algoritmo saussuriano
DOI:
https://doi.org/10.1590/SciELOPreprints.11678Keywords:
Saussure, Processamento de Linguagem Natural, Word2Vec, Teoria do ValorResumen
Este artículo propone una lectura del funcionamiento de Word2Vec, un algoritmo para la generación de embeddings de palabras, a la luz de la Teoría del Valor (TdV) de Ferdinand de Saussure. Word2Vec, en los últimos años, ha sido bastante útil para diversas tareas de PLN, tales como la clasificación de textos, el análisis de sentimientos y el cálculo de probabilidades de ocurrencia, debido al manejo de vectores de alta dimensión. Defiendo, por lo tanto, que, a través de este modelo de lenguaje, es posible observar que algunas nociones teóricas de la lingüística saussuriana —a saber, el sistema, el signo y el valor— continúan siendo productivas para reflexionar sobre aspectos teóricos y epistemológicos de la determinación de significados en las lenguas naturales, así como sobre la forma en que estos sentidos parecen ser emulados por técnicas modernas de PLN, como el Word2Vec. Partimos de una crítica a las limitaciones del TF-IDF, pasando por la influencia de la Semántica Distribucional y de la Hipótesis Distribucional en los modelos vectoriales de lenguaje modernos, para finalmente proponer que Word2Vec presenta indicios de poder operacionalizar, en niveles de semántica computacional, aquello que Saussure ya había formulado conceptualmente a inicios del siglo XX: la idea de que el significado de una palabra no es fijo ni individual, sino relacional y determinado por los valores de semejanza y diferencia que la rodean. En este sentido, las fuentes saussurianas movilizadas en esta investigación para la delimitación de los conceptos abordados fueron: el Curso de Lingüística General; el conjunto de manuscritos Notes pour le 3e Cours; y el cuaderno de Émile Constantin, oyente del Tercer Curso de Lingüística General impartido por Saussure en Ginebra, entre 1910 y 1911. Nuestro objetivo, así, es proponer que las nociones saussurianas de similia y dissimilía pueden percibirse en los bastidores teóricos de Word2Vec, promoviendo una aproximación entre el saussurianismo y el PLN contemporáneo. La hipótesis que guía este trabajo, por lo tanto, es que Word2Vec puede ser leído como un algoritmo saussuriano, por aplicar computacionalmente la dinámica de los valores lingüísticos para emular la forma en que los significados son determinados mediante la relación entre las palabras, tal como lo anticipara el maestro ginebrino ya en el siglo pasado.
Downloads
Postado
Cómo citar
Serie
Derechos de autor 2025 Leonardo Giamarusti

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Datos de los fondos
Plaudit
Declaración de datos
-
Los datos de investigación están incluidos en el propio manuscrito


