RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2017, том 11, выпуск 3, страницы 60–72 (Mi ia486)

Повышение качества классификации в задаче обнаружения внутреннего плагиата

И. О. Молибогab, А. П. Мотренкоa, В. В. Стрижовc

a Московский физико-технический институт
b Центр энергетических систем, Сколковский институт науки и технологий
c Вычислительный центр им. А. А. Дородницына Федерального исследовательского центра «Информатика и управление» Российской академии наук

Аннотация: Исследуется задача классификации объектов в многомерных пространствах. Для снижения размерности задачи предлагается модификация алгоритма t-SNE (англ. t-distributed Stochastic Neighbor Embedding), в которой при обучении используется информация о разметке, не возникает необходимости заново обучать алгоритм при добавлении новых данных, а также предусмотрена параллельная реализация. Предлагаемый алгоритм решает задачу внутреннего плагиата, в которой признаками являются частотные словесные профили сегментов текста. Показано, что качество классификации после применения алгоритма выше, чем без него или с другими алгоритмами.

Ключевые слова: анализ данных; снижение размерности; нелинейные методы снижения размерности; обучение многообразий; обнаружение внутреннего плагиата.

Поступила в редакцию: 20.02.2017

DOI: 10.14357/19922264170307



Реферативные базы данных:


© МИАН, 2024