RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2017, том 27, выпуск 1, страницы 100–107 (Mi ssi505)

Эта публикация цитируется в 2 статьях

Об основных типах связанности между текстовыми документами

М. М. Шарнин, Н. В. Сомин

Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук

Аннотация: Рассматривается вопрос связанности естественно-языковых текстов по текстуальным признакам (фрагментам). Выявлены два типа связанности: явная связанность, когда тексты связаны библиографическими ссылками, и неявная связанность, когда тексты связаны между собой через общие текстовые фрагменты. Обсуждаются преимущества и области применения неявной связанности. Показано, что использование неявной связанности значительно повышает область применения основанных на связанности методов обработки текстов. Предложены меры явной и неявной связанности. Проведен эксперимент с корпусом текстов по предметной области «компьютерная графика». На основе эксперимента показано, что оба типа связанности коррелированны между собой. Найдены параметры обработки текстов, когда корреляция максимальна и достигает примерно 55%. Приводятся планы по дальнейшему развитию предложенного метода сравнения и уточнению полученных результатов.

Ключевые слова: связанность текстов; явная связанность; неявная связанность; мера связанности; коллекция текстов; корреляция.

Поступила в редакцию: 29.10.2016

DOI: 10.14357/08696527170107



Реферативные базы данных:


© МИАН, 2024