В. И. Юферев, Н. А. Разин, “Векторизация текстов на основе word-embedding моделей с использованием кластеризации”, Модел. и анализ информ. систем, 2021, том 28, номер 3,страницы 292

Эта публикация цитируется в 1 статье

Theory of data

Векторизация текстов на основе word-embedding моделей с использованием кластеризации

В. И. Юферев^a, Н. А. Разин^b

^a Департамент информационных технологий Центрального банка Российской Федерации, Инновационная лаборатория «Новосибирск», ул. Неглинная, д. 12, г. Москва, 107016 Россия
^b Департамент противодействия недобросовестным практикам, Центральный банк Российской Федерации, ул. Неглинная, д. 12, г. Москва, 107016 Россия

Аннотация: Известно, что в задачах обработки естественного языка представление текстов векторами фиксированной длины с использованием word-embedding моделей оправдано в тех случаях, когда векторизуемые тексты являются короткими. Чем сравниваемые тексты длиннее, тем подход работает хуже. Такая ситуация обусловлена тем, что при использовании word-embedding моделей происходит потеря информации при преобразовании векторных представлений слов, составляющих текст, в векторное представление всего текста, имеющее обычно ту же размерность, что и вектор отдельного слова.
В настоящей работе предлагается альтернативный способ использования предобученных word-embedding моделей для векторизации текстов. Суть предлагаемого способа заключается в объединении семантически близких элементов словаря имеющегося корпуса текстов путем кластеризации их (элементов словаря) эмбеддингов, в результате чего формируется новый словарь размером меньше исходного, каждый элемент которого соответствует одному кластеру. Исходный корпус текстов переформулируется в терминах этого нового словаря, после чего на переформулированных текстах выполняется векторизация одним из словарных подходов (в работе применялся TF-IDF). Полученное векторное представление текста дополнительно может обогащаться с использованием векторов слов исходного словаря, полученных путем уменьшения размерности их эмбеддингов по каждому кластеру.В работе описана серия экспериментов по определению оптимальных параметров предлагаемого подхода; для задачи ранжирования текстов приведено сравнение подхода с другими способами векторизации — усреднением эмбеддингов слов со взвешиванием по TF-IDF и без взвешивания, а также с векторизацией на основе TF-IDF коэффициентов.

Ключевые слова: эмбеддинговые модели, Fasttext, TF-IDF, усреднение, кластеризация, семантическое сходство текстов, определение расстояний, ранжирование текстов.

УДК: 004.8

MSC: 97R40, 68T50

Поступила в редакцию: 23.06.2021
Исправленный вариант: 16.08.2021
Принята в печать: 25.08.2021

DOI: 10.18255/1818-1015-2021-3-292-311