Аннотация:
Во многих задачах информационного поиска часто возникает проблема сегментации документов на отдельные, более узкие поддокументы. В случае, если в документе присутствует определенная семантическая разметка (содержание, заголовки и т. д.), сегментация (на определенном уровне) не представляет никаких проблем. Сложнее, когда такой информации нет или сегментацию нужно выполнить на более узком уровне. В таком случае появляется необходимость в алгоритмах сегментации. Цель данной работы – предложить метод сегментации, который применяется в целом к коллекции похожих по содержанию документов, с возможным аннотированием получившихся сегментов. Приведем пример, где такая задача может быть востребована: пусть у нас имеются большая коллекция документов, например набор всех статей из Википедии, и некоторый алгоритм кластеризации. Статьи в Википедии носят в основном энциклопедический характер и часто строятся по определенному шаблону. Так, статья о каком-либо крупном городе почти всегда имеет разделы, посвященные географии, истории, населению, экономике, инфраструктуре. Логично предположить, что статьи о городах или подобных географических объектах могут попасть в один кластер, где все вышеперечисленные подтемы присутствуют в большинстве документов. Для удобства навигации и построения аннотации кластера имеет смысл найти все такие подтемы и в соответствии с ними разделить каждый документ. Библиогр. 9 назв.
Ключевые слова:сегментация текстовых документов, обработка естественных языков, информационный поиск.