RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2016, выпуск 49, страницы 104–121 (Mi trspy919)

Эта публикация цитируется в 7 статьях

Методы управления и обработки информации

Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам

А. О. Шумская

Томский государственный университет систем управления и радиоэлектроники (ТУСУР)

Аннотация: Работа посвящена вопросу идентификации текстов, сгенерированных автоматически (искусственно) с помощью программных алгоритмов. Данная задача является актуальной в связи с ростом распространения таких текстов, распространяемых в Интернете. Создаваемые «копии» веб-страниц используются для привлечения читателей к интернет-ресурсам, а также для распространения большого количества уникальных экземпляров страниц с контентом определенной направленности.
В статье описаны особенности определения происхождения текста на примере работы с текстами, порожденными методом синонимизации, как наиболее распространенного метода генерации искусственных текстов, представляющих собой веб-контент. Предложен инвариант искусственно созданных текстов, представляющий собой набор значений текстовых характеристик, который позволяет классифицировать тексты по способу их создания. Предложен метод определения искусственно созданных текстов на основе расчета меры принадлежности входного текста к инвариантам, позволяющий принять решение о происхождении текста. В статье также приведены значения, полученные в ходе проведения серии экспериментов по определению искусственно созданных текстов.

Ключевые слова: автоматически сгенерированные тексты; искусственные тексты; массовое порождение текстов; текстовые характеристики; атрибуция текста.

УДК: 004.072.7

DOI: 10.15622/sp.49.6



Реферативные базы данных:


© МИАН, 2024