А. М. Колосов, А. И. Майсурадзе, “Улучшение качества векторных представлений слов за счёт использования нескольких источников представлений”, Интеллектуальные системы. Теория и приложения, 2026, том 30, выпуск 1,страницы 87

Часть 2. Специальные вопросы теории интеллектуальных систем

Улучшение качества векторных представлений слов за счёт использования нескольких источников представлений

А. М. Колосов^a, А. И. Майсурадзе^b

^a Московский государственный университет имени М. В. Ломоносова, механико-математический факультет
^b Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики

Аннотация: Векторные представления слов активно используются в задачах машинного перевода, рекомендательных системах и информационном поиске. Качество таких представлений, оцениваемое как ранговая корреляция с экспертными оценками семантической близости, остаётся ограниченным. В данной работе предлагается подход к повышению качества векторных представлений слов путём слияния нескольких независимых источников первичных представлений. Вводятся понятия монотонных и антимонотонных четвёрок слов, формулируется и проверяется гипотеза о том, что информация, содержащаяся в монотонных четвёрках, позволяет восстановить истинный порядок близостей для антимонотонных четвёрок. Предложены метод отбора четвёрок слов, двухшаговая процедура коррекции с использованием полносвязного слоя и функции потерь на четвёрках (quadruplet loss), а также способ оценки качества полученных представлений. Экспериментальные результаты на моделях Word2Vec и GloVe, обученных на лемматизированной Википедии, демонстрируют возможность повышения качества представлений при оценке на экспертных наборах данных MEN, SimLex-999 и WordSim-353.

Ключевые слова: векторные представления слов, семантическая близость, слияние данных, quadruplet loss, многомерное шкалирование, Word2Vec, GloVe.