Аннотация:
Цель исследования заключается в выработке оптимальных подходов для поиска заимствований в научных работах. Рассматриваются этапы нахождения наличия заимствований: предобработка, грубое фильтрование текстов, нахождение схожих текстов, нахождение заимствований. Основное внимание уделяется описанию подходов и техник, которые можно эффективно реализовать на каждом из этапов, например перевод символов текста из заглавных в строчные, удаление знаков препинаний, удаление стоп-слов для этапа предобработки; фильтры по темам и частоте слов для этапа грубого фильтрования текста; подсчет важности слов в контексте текста и представление слова в виде вектора в многомерном пространстве для определения меры близости для этапа нахождения схожих текстов; поиск точного совпадения, перефразов и меры близости выражений для этапа нахождения заимствований. Научная новизна заключается в предлагаемом в статье использовании марковских цепей для нахождения схожести текстов для второго и третьего этапов процесса поиска заимствований. На примере показана методика применения марковских цепей для представления текста, поиска наиболее часто встречающихся слов, построения графа марковской цепи слов и перспективы использования марковских цепей текстов для грубого фильтрования и поиска схожих текстов.
Ключевые слова:поиск заимствований, алгоритмы нахождения заимствований, марковские цепи, программное обеспечение проверки на оригинальность.