RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2019, выпуск 18, том 3, страницы 767–793 (Mi trspy1063)

Эта публикация цитируется в 1 статье

Искусственный интеллект, инженерия данных и знаний

Сравнительный анализ коллекций научных журналов

Ф. В. Красновa, М. Е. Шварцманbc, А. В. Диментовb

a ГазпромНефть Научно-Технический Центр
b Национальный электронно-информационный консорциум
c ФГБУ Российская государственная библиотека

Аннотация: Разработан подход  для сравнительного анализа коллекций научных журналов на основе анализа графа соавторств и модели текста. Использование временных рядов метрик графа соавторства  позволило  провести  анализ  тенденций  в развитии коллабораций  авторов журнала.  Модель текста была построена  с помощью методов машинного  обучения. При помощи модели  текста была произведена классификация контента журналов для выявления  степени аутентичности различных журналов и различных выпусков одного журнала. Разработана метрика  Коэффициент  контентной аутентичности, позволяющая количественно оценивать аутентичность коллекций журналов в сравнении.  Сравнительный  тематический  анализ коллекций журналов выполнен  с использованием  тематической  модели с аддитивной  регуляризацией.  На основании созданной тематической модели авторами построены тематические профили архивов журналов в едином тематическом базисе. Разработанный подход был применен к архивам двух журналов по тематике Ревматология за период 2000 – 2018 гг. В качестве эталона для сравнения метрик соавторств были взяты публичные наборы данных научной лаборатории SNAP Стендфордского  университета.  Проведено  сравнение коллабораций  соавторов журналов по тематике Ревматология с эталонными коллаборациями авторов. Произведено количественное сопоставление больших объемов текстов и метаданных научных статей. В результате проведенного авторами эксперимента с использованием разработанных методик показано, что контентная аутентичность выбранных журналов составляет 89%, соавторства в одном из журналов имеют ярко выраженную центральность, что является отличительной чертой редакционной политики. Наглядность и непротиворечивость полученных результатов подтверждает эффективность предложенного подхода. Разработанный в ходе эксперимента код на языке программирования Python может быть применен для сравнительного анализа других коллекций журналов на русском языке.

Ключевые слова: сравнительный тематический анализ, сравнительная модель текста, глубокий анализ текста, анализ социальных сетей, метрики графов.

УДК: 004.89

Поступила в редакцию: 22.05.2019

DOI: 10.15622/sp.2019.18.3.766-792



Реферативные базы данных:


© МИАН, 2024