RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2021, том 15, выпуск 1, страницы 30–41 (Mi ia709)

Эта публикация цитируется в 3 статьях

Методы обнаружения переводных заимствований в больших текстовых коллекциях

Р. В. Кузнецоваa, О. Ю. Бахтеевba, Ю. В. Чеховичc

a Московский физико-технический институт
b Компания Антиплагиат
c Вычислительный центр им. А. А. Дородницына Федерального исследовательского центра «Информатика и управление» Российской академии наук

Аннотация: Рассматривается задача обнаружения переводных заимствований. Для решения предлагается использовать моноязыковой подход — свести задачу обнаружения заимствований к одному языку, используя машинный перевод. В связи со спецификой рассматриваемой задачи предлагаемый алгоритм обнаружения должен быть устойчив к неоднозначностям перевода. Предлагается декомпозировать задачу на несколько этапов. Сначала отбираются документы-кандидаты, устойчивость к неоднозначности перевода достигается за счет замены слов на метки кластеров, полученных с помощью дистрибутивной модели. Затем происходит сравнение найденных кандидатов и рассматриваемого документа, для этого используется отображение текстовых фрагментов документов в векторное пространство высокой размерности. Вычислительный эксперимент проводится для языковой пары «русский–английский» на двух выборках — синтетическом корпусе и на статьях из журналов, входящих в Российский индекс научного цитирования (РИНЦ).

Ключевые слова: автоматическая обработка текстов, машинный перевод, глубокое обучение, переводные заимствования, обнаружение переводных заимствований, дистрибутивная семантика.

Поступила в редакцию: 19.03.2020

DOI: 10.14357/19922264210105



© МИАН, 2024