Р. В. Кузнецова, О. Ю. Бахтеев, Ю. В. Чехович, “Методы обнаружения переводных заимствований в больших текстовых коллекциях”, Информ. и её примен., 2021, том 15, выпуск 1,страницы 30

Эта публикация цитируется в 3 статьях

Методы обнаружения переводных заимствований в больших текстовых коллекциях

Р. В. Кузнецова^a, О. Ю. Бахтеев^ba, Ю. В. Чехович^c

^a Московский физико-технический институт
^b Компания Антиплагиат
^c Вычислительный центр им. А. А. Дородницына Федерального исследовательского центра «Информатика и управление» Российской академии наук

Аннотация: Рассматривается задача обнаружения переводных заимствований. Для решения предлагается использовать моноязыковой подход — свести задачу обнаружения заимствований к одному языку, используя машинный перевод. В связи со спецификой рассматриваемой задачи предлагаемый алгоритм обнаружения должен быть устойчив к неоднозначностям перевода. Предлагается декомпозировать задачу на несколько этапов. Сначала отбираются документы-кандидаты, устойчивость к неоднозначности перевода достигается за счет замены слов на метки кластеров, полученных с помощью дистрибутивной модели. Затем происходит сравнение найденных кандидатов и рассматриваемого документа, для этого используется отображение текстовых фрагментов документов в векторное пространство высокой размерности. Вычислительный эксперимент проводится для языковой пары «русский–английский» на двух выборках — синтетическом корпусе и на статьях из журналов, входящих в Российский индекс научного цитирования (РИНЦ).

Ключевые слова: автоматическая обработка текстов, машинный перевод, глубокое обучение, переводные заимствования, обнаружение переводных заимствований, дистрибутивная семантика.

Поступила в редакцию: 19.03.2020

DOI: 10.14357/19922264210105