RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления // Архив

Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2011, выпуск 3, страницы 127–133 (Mi vspui52)

Информатика

Тематическая сегментация семантически однородных документов

А. Н. Мишенин

Санкт-Петербургский государственный университет, математико-механический факультет

Аннотация: Во многих задачах информационного поиска часто возникает проблема сегментации документов на отдельные, более узкие поддокументы. В случае, если в документе присутствует определенная семантическая разметка (содержание, заголовки и т. д.), сегментация (на определенном уровне) не представляет никаких проблем. Сложнее, когда такой информации нет или сегментацию нужно выполнить на более узком уровне. В таком случае появляется необходимость в алгоритмах сегментации. Цель данной работы – предложить метод сегментации, который применяется в целом к коллекции похожих по содержанию документов, с возможным аннотированием получившихся сегментов. Приведем пример, где такая задача может быть востребована: пусть у нас имеются большая коллекция документов, например набор всех статей из Википедии, и некоторый алгоритм кластеризации. Статьи в Википедии носят в основном энциклопедический характер и часто строятся по определенному шаблону. Так, статья о каком-либо крупном городе почти всегда имеет разделы, посвященные географии, истории, населению, экономике, инфраструктуре. Логично предположить, что статьи о городах или подобных географических объектах могут попасть в один кластер, где все вышеперечисленные подтемы присутствуют в большинстве документов. Для удобства навигации и построения аннотации кластера имеет смысл найти все такие подтемы и в соответствии с ними разделить каждый документ. Библиогр. 9 назв.

Ключевые слова: сегментация текстовых документов, обработка естественных языков, информационный поиск.

УДК: 519.688


Принята к печати: 10 марта 2011 г.



© МИАН, 2024