Аннотация:
Популярные в банковской сфере транзакционные данные часто представляются в виде разреженных (с большим количеством признаков) векторов. Использование разреженных векторов в задачах глубинного обучения является неэффективным и может вести к переобучению. Для извлечения полезных признаков в пространстве меньшей размерности широко применяют автокодировщики. В настоящей работе предлагается новая функция потерь, которая основана на метрике, оценивающей качество отображения исходных табличных данных в пространство эмбеддингов. Эта функция служит для преобразования снижения размерности и позволяет сохранить структуру отношений объектов исходного пространства. Полученные результаты показывают улучшение качества получаемых эмбеддингов посредством использования новой функции потерь в комбинации с традиционной средней квадратической ошибкой функции.
Ключевые слова:данные; эмбеддинг; вектор; функция потерь; автокодировщик.
УДК:
004.852
Поступила в редакцию: 21.10.2021 Исправленный вариант: 08.11.2021 Принята в печать: 14.02.2022