Р. Р. Саакян, И. А. Шпехт, Г. А. Петросян, “Нахождение наличия заимствований в научных работах на основе марковских цепей”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2023, том 19, выпуск 1,страницы 43

Прикладная математика

Нахождение наличия заимствований в научных работах на основе марковских цепей

Р. Р. Саакян^a, И. А. Шпехт^b, Г. А. Петросян^a

^a Ванадзорский государственный университет им. О. Туманяна, Республика Армения, 2001, Ванадзор, ул. Тигран Мец, 36
^b Академия маркетинга и социально-информационных технологий — ИМСИТ, Российская Федерация, 350010, Краснодар, ул. Зиповская, 5

Аннотация: Цель исследования заключается в выработке оптимальных подходов для поиска заимствований в научных работах. Рассматриваются этапы нахождения наличия заимствований: предобработка, грубое фильтрование текстов, нахождение схожих текстов, нахождение заимствований. Основное внимание уделяется описанию подходов и техник, которые можно эффективно реализовать на каждом из этапов, например перевод символов текста из заглавных в строчные, удаление знаков препинаний, удаление стоп-слов для этапа предобработки; фильтры по темам и частоте слов для этапа грубого фильтрования текста; подсчет важности слов в контексте текста и представление слова в виде вектора в многомерном пространстве для определения меры близости для этапа нахождения схожих текстов; поиск точного совпадения, перефразов и меры близости выражений для этапа нахождения заимствований. Научная новизна заключается в предлагаемом в статье использовании марковских цепей для нахождения схожести текстов для второго и третьего этапов процесса поиска заимствований. На примере показана методика применения марковских цепей для представления текста, поиска наиболее часто встречающихся слов, построения графа марковской цепи слов и перспективы использования марковских цепей текстов для грубого фильтрования и поиска схожих текстов.

Ключевые слова: поиск заимствований, алгоритмы нахождения заимствований, марковские цепи, программное обеспечение проверки на оригинальность.

УДК: 004.021

MSC: 68W05

Поступила: 13 ноября 2022 г.
Принята к печати: 19 января 2023 г.

DOI: 10.21638/11701/spbu10.2023.104