RUS  ENG
Полная версия
ЖУРНАЛЫ // Ученые записки Казанского университета. Серия Физико-математические науки // Архив

Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки, 2023, том 165, книга 3, страницы 264–281 (Mi uzku1638)

Система автоматического построения графов знаний математических документов

О. А. Невзорова, Б. Т. Гизатуллин

Казанский (Приволжский) федеральный университет, г. Казань, 420008, Россия

Аннотация: В настоящей работе представлен процесс создания системы автоматизированного построения графов знаний для коллекций математических документов в формате LATEX. Разработана онтология MathCollectionOntology, определяющая типы объектов и связей в графах знаний. Представлены инструменты, включающие методы извлечения математических терминов, выделения тематик документов, извлечения сущностей из LATEX-кода, а также инструменты для вычисления статистических параметров графа.
Среди выделяемых сущностей: математические термины, тематики, полученные методом латентного размещения Дирихле, коды УДК, использованные формулы, аффилиации авторов, использованная литература и другие. Каждый извлеченный объект записывается в граф знаний с использованием определенных типов связей, выделенных в разработанной онтологии MathCollectionOntology.
С использованием разработанной системы проведены построение и анализ графа знаний для коллекции научных статей журнала «Известия высших учебных заведений. Математика», включающей 1114 русскоязычных статей в формате LATEX. Выделен терминологический состав тематик документов. Получены количественные параметры построенного графа знаний коллекции.

Ключевые слова: построение графа знаний, открытые связанные данные, тематическое моделирование, математическая статья, обработка текстов.

УДК: 004.822

Поступила в редакцию: 14.08.2023
Принята в печать: 14.09.2023

DOI: 10.26907/2541-7746.2023.3.264-281



© МИАН, 2024