RUS  ENG
Полная версия
ЖУРНАЛЫ // Информационные технологии и вычислительные системы // Архив

ИТиВС, 2019, выпуск 4, страницы 60–69 (Mi itvs363)

ОБРАБОТКА ИНФОРМАЦИИ И АНАЛИЗ ДАННЫХ

Задача эффективной кластеризации текстовой выборки в зависимости от различной параметризации этой выборки

Э. А. Головастоваa, Д. Н. Красотинb

a Московский государственный университет им. М.В. Ломоносова, г. Москва, Россия
b ЗАО “Московский научно-исследовательский телевизионный институт”, г. Москва, Россия

Аннотация: Данное исследование посвящено проблеме необходимости проведения быстрой и качественной автоматизированной кластеризации больших объемов текстовых выборок в условиях постоянно разрастающегося объёма информации, в том числе получаемых из сети Интернет. В статье рассмотрены различные способы параметризации текстовой выборки и различные алгоритмы кластеризации. Качество работы методов оценивалось по скорости их выполнения, значению коэффициента Силуэт (формальному показателю качества кластеризации) и полноты финального отображения кластеров. В статье приведены результаты работы методов кластеризации, проведен их анализ и сравнение.

Ключевые слова: Кластеризация, текстовая выборка, параметризация выборки, tf-idf-мера, ключевые слова, эффективный метод.

DOI: 10.14357/20718632190406



© МИАН, 2024