RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2020, том 32, выпуск 4, страницы 165–174 (Mi tisp532)

Эта публикация цитируется в 1 статье

Двухшаговый метод объединения новостей в сюжеты

К. А. Скорняковab, А. С. Ласкинаab, Д. Ю. Турдаковbc

a Московский физико-технический институт
b Институт системного программирования им, В.П. Иванникова РАН
c Московский государственный университет имени М. В. Ломоносова

Аннотация: Работа посвящена разработке метода выделения сюжетов в новостях на русском языке. Сюжетом мы считаем группу новостей про одно событие реального мира. Предлагается двухэтапная схема кластеризации, при которой результаты первого «грубого» шага уточняются с помощью бинарного классификатора на парах новостей. В рамках работы создан размеченный на принадлежность сюжетам корпус новостей на русском языке, доступный для скачивания. На этом наборе данных показывается, что предложенный метод превосходит существующие решения по основным внешним метрикам кластеризации.

Ключевые слова: выделение сюжетов, кластеризация, новости.

DOI: 10.15514/ISPRAS-2020-32(4)-12



© МИАН, 2024