RUS  ENG
Полная версия
ЖУРНАЛЫ // Моделирование и анализ информационных систем // Архив

Модел. и анализ информ. систем, 2018, том 25, номер 6, страницы 726–733 (Mi mais659)

Тезаурусы

Векторное представление слов с семантическими отношениями: экспериментальные наблюдения

М. С. Каряеваa, П. И. Браславскийb, В. А. Соколовa

a Ярославский государственный университет им. П.Г. Демидова, ул. Советская, 14, г. Ярославль, 150003 Россия
b Уральский федеральный университет, г. Екатеринбург, ул. Мира, 19, 620002 Россия

Аннотация: Возможность идентификации семантической близости между словами сделала модель word2vec широко используемой в NLP-задачах. Идея word2vec основана на контекстной близости слов. Каждое слово может быть представлено в виде вектора, близкие координаты векторов могут быть интерпретированы как близкие по смыслу слова. Таким образом, извлечение семантических отношений (отношение синонимии, родо-видовые отношения и другие) может быть автоматизировано. Установление семантических отношений вручную считается трудоемкой и необъективной задачей, требующей большого количества времени и привлечения экспертов. Но среди ассоциативных слов, сформированных с использованием модели word2vec, встречаются слова, не представляющие никаких отношений с главным словом, для которого был представлен ассоциативный ряд. В работе рассматриваются дополнительные критерии, которые могут быть применимы для решения данной проблемы. Наблюдения и проведенные эксперименты с общеизвестными характеристиками, такими как частота слов, позиция в ассоциативном ряду, могут быть использованы для улучшения результатов при работе с векторным представлением слов в части определения семантических отношений для русского языка. В экспериментах используется обученная на корпусах Флибусты модель word2vec и размеченные данные Викисловаря в качестве образцовых примеров, в которых отражены семантические отношения. Семантически связанные слова (или термины) нашли свое применение в тезаурусах, онтологиях, интеллектуальных системах для обработки естественного языка.

Ключевые слова: векторное представление слов, word2vec, семантические отношения, тезаурус, гипонимы, гиперонимы, синонимы.

УДК: 004.912

Поступила в редакцию: 01.09.2018
Исправленный вариант: 20.11.2018
Принята в печать: 25.11.2018

DOI: 10.18255/1818-1015-726-733



© МИАН, 2024