Г. В. Данилов, В. В. Жуков, А. С. Куликов, Е. С. Макашова, Н. А. Митин, Ю. Н. Орлов, “Сравнительный анализ статистических методов классификации научных публикаций в области медицины”, Компьютерные исследования и моделирование, 2020, том 12, выпуск 4,страницы 921

Эта публикация цитируется в 8 статьях

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Сравнительный анализ статистических методов классификации научных публикаций в области медицины

Г. В. Данилов^a, В. В. Жуков^b, А. С. Куликов^a, Е. С. Макашова^a, Н. А. Митин^c, Ю. Н. Орлов^bc

^a ФГАУ НМИЦ нейрохирургии им. ак. Н. Н. Бурденко, Россия, 125047, г. Москва, 4-я Тверская-Ямская ул., д. 16
^b Российский университет дружбы народов, Россия, 117198, г. Москва, ул. Миклухо-Маклая, д. 6
^c ФИЦ Институт прикладной математики им. М. В. Келдыша РАН, Россия, 125047, г. Москва, Миусская пл., д. 4

Аннотация: В работе проведено сравнение различных методов машинной классификации научных текстов по тематическим разделам на примере публикаций в профильных медицинских журналах, выпускаемых издательством Springer. Исследовался корпус текстов по пяти разделам: фармакология/токсикология, кардиология, иммунология, неврология и онкология. Рассматривались как методы поверхностной классификации, основанные на анализе аннотаций и ключевых слов, так и методы классификации на основе обработки собственно текстов. Были применены методы байесовской классификации, опорных векторов и эталонных буквосочетаний. Показано, что наилучшую точность имеет метод классификации на основе создания библиотеки эталонов буквенных триграмм, отвечающих текстам определенной тематики, а семантические методы уступают ему по точности. Выяснилось, что применительно к рассматриваемому корпусу текстов байесовский метод дает ошибку порядка 20 %, метод опорных векторов имеет ошибку порядка 10 %, а метод близости распределения текста к трехбуквенному эталону тематики дает ошибку порядка 5 %, что позволяет ранжировать эти методы для использования искусственного интеллекта в задачах классификации текстов по отраслевым специальностям. Существенно, что при анализе аннотаций метод опорных векторов дает такую же точность, что и при анализе полных текстов, что важно для сокращения числа операций для больших корпусов текстов.

Ключевые слова: машинное обучение, классификация медицинских текстов, статистический анализ.

УДК: 519.25

Поступила в редакцию: 25.03.2020
Исправленный вариант: 16.04.2020
Принята в печать: 06.05.2020

DOI: 10.20537/2076-7633-2020-12-4-921-933