RUS  ENG
Полная версия
ЖУРНАЛЫ // Интеллектуальные системы. Теория и приложения // Архив

Интеллектуальные системы. Теория и приложения, 2026, том 30, выпуск 1, страницы 87–100 (Mi ista583)

Часть 2. Специальные вопросы теории интеллектуальных систем

Улучшение качества векторных представлений слов за счёт использования нескольких источников представлений

А. М. Колосовa, А. И. Майсурадзеb

a Московский государственный университет имени М. В. Ломоносова, механико-математический факультет
b Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики

Аннотация: Векторные представления слов активно используются в задачах машинного перевода, рекомендательных системах и информационном поиске. Качество таких представлений, оцениваемое как ранговая корреляция с экспертными оценками семантической близости, остаётся ограниченным. В данной работе предлагается подход к повышению качества векторных представлений слов путём слияния нескольких независимых источников первичных представлений. Вводятся понятия монотонных и антимонотонных четвёрок слов, формулируется и проверяется гипотеза о том, что информация, содержащаяся в монотонных четвёрках, позволяет восстановить истинный порядок близостей для антимонотонных четвёрок. Предложены метод отбора четвёрок слов, двухшаговая процедура коррекции с использованием полносвязного слоя и функции потерь на четвёрках (quadruplet loss), а также способ оценки качества полученных представлений. Экспериментальные результаты на моделях Word2Vec и GloVe, обученных на лемматизированной Википедии, демонстрируют возможность повышения качества представлений при оценке на экспертных наборах данных MEN, SimLex-999 и WordSim-353.

Ключевые слова: векторные представления слов, семантическая близость, слияние данных, quadruplet loss, многомерное шкалирование, Word2Vec, GloVe.



© МИАН, 2026