В. Ю. Мамедов, Д. А. Ковалевский, Д. А. Морозов, С. С. Столяров, С. С. Оспичев, “Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК)”, Модел. и анализ информ. систем, 2025, том 32, номер 1,страницы 80

Artificial intelligence

Иерархическая классификация научных статей при помощи глубокого обучения (на примере иерархии УДК)

В. Ю. Мамедов, Д. А. Ковалевский, Д. А. Морозов, С. С. Столяров, С. С. Оспичев

Новосибирский национальный исследовательский государственный университет, Новосибирск, Россия

Аннотация: В условиях стремительного роста числа научных публикаций актуальной задачей становится разработка эффективных инструментов для их систематизации и поиска. Одним из таких инструментов является универсальная десятичная классификация (УДК), которая позволяет структурировать статьи по тематическим областям. Однако ручное присвоение кодов УДК зачастую оказывается неточным или недостаточно детализированным, что снижает эффективность использования этого подхода. В данной статье предлагается подход к автоматическому присвоению кодов УДК научным статьям с использованием моделей на основе архитектуры BERT. Для обучения и оценки модели был использован набор данных, содержащий более 19 тысяч статей по математике и смежным наукам. Мы разработали две специализированные метрики качества, учитывающие иерархическую природу УДК: иерархическую классификационную точность и иерархическую рекомендательную точность. Кроме того, мы предложили несколько стратегий преобразования иерархических меток в плоские. В ходе экспериментов нам удалось достичь значения иерархической рекомендательной точности 0,8220. Дополнительно проведено слепое тестирование с участием экспертов, которое выявило, что часть расхождений между эталонными и сгенерированными метками обусловлена некорректным выбором кода УДК авторами статей. Предложенный подход демонстрирует высокий потенциал для автоматической классификации научных статей и может быть адаптирован для других иерархических систем классификации.

Ключевые слова: классификация текстов, иерархическая классификация текстов, универсальный десятичный классификатор, глубокое обучение.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 14.02.2025
Исправленный вариант: 24.02.2025
Принята в печать: 26.02.2025

DOI: 10.18255/1818-1015-2025-1-80-94