А. В. Боровский, Е. Е. Раковская, “Применение методов искусственного интеллекта для решения задач поиска семантических ассоциатов на примере топонима «Москва»”, Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ., 2022, номер 2,страницы 41

КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

Применение методов искусственного интеллекта для решения задач поиска семантических ассоциатов на примере топонима «Москва»

А. В. Боровский, Е. Е. Раковская

Байкальский государственный университет, Иркутск, Россия

Аннотация: Актуальные проблемы топонимики подразумевают исследование отдельных слов с целью восстановления утраченного понятийного значения географических названий, выяснения того, как в них отразились характерные особенности рельефа местности, род деятельности населяющих ее людей и т. п. Цель исследования – определение происхождения топонима «Москва» с применением методов искусственного интеллекта. Применяется эмбеддинговая модель GeoWAC fastText на основе корпуса русскоязычных текстов сервиса RusVectōrēs для вычисления семантического сходства между словами. Модель предполагает определение семантических ассоциатов топонимов на основе векторного представления слов в семантическом пространстве и нахождение лексических векторов, наиболее близко расположенных к вектору исходного слова. Для анализа топонима применяются методы семантических ассоциатов, кластерный анализ, комбинированный метод, базирующийся на методе трансформации слова с утерянным смыслом и анализе семантических ассоциатов для множества трансформантов слова. Метод формализован применением модели, определяющей сходство исследуемого слова и ассоциатов, на основе разных вариантов модели для одного или нескольких корпусов текстов. Слова-ассоциаты, полученные искусственным интеллектом, рассматриваются как семантический кластер, вычисленное косинусное сходство между векторами – как мера сходства элементов в кластере. Для выявления различных гипотез возникновения топонима «Москва» проведен кластерный анализ совокупности первых десяти векторных ассоциатов для всех трансформантов этого слова. В результате выявлены четыре гипотезы: «знаменитый человек», «огнестрельное оружие», «пчеловодство», «кровососущие насекомые». Вычислены вероятности появления указанных гипотез на основе исследования частотности слов в корпусе языка. Основной является гипотеза «знаменитый человек».

Ключевые слова: эмбеддинговая модель, русский язык, метод трансформации слов, семантические ассоциаты, топоним «Москва», кластерный анализ.

УДК: 004.048

Поступила в редакцию: 21.04.2022
Принята в печать: 14.04.2022

DOI: 10.24143/2072-9502-2022-2-41-51