Система автоматического построения графов знаний математических документов
О. А. Невзорова,
Б. Т. Гизатуллин Казанский (Приволжский) федеральный университет, г. Казань, 420008, Россия
Аннотация:
В настоящей работе представлен процесс создания системы автоматизированного построения графов знаний для коллекций математических документов в формате L
AT
EX. Разработана онтология MathCollectionOntology, определяющая типы объектов и связей в графах знаний. Представлены инструменты, включающие методы извлечения математических терминов, выделения тематик документов, извлечения сущностей из L
AT
EX-кода, а также инструменты для вычисления статистических параметров графа.
Среди выделяемых сущностей: математические термины, тематики, полученные методом латентного размещения Дирихле, коды УДК, использованные формулы, аффилиации авторов, использованная литература и другие. Каждый извлеченный объект записывается в граф знаний с использованием определенных типов связей, выделенных в разработанной онтологии MathCollectionOntology.
С использованием разработанной системы проведены построение и анализ графа знаний для коллекции научных статей журнала «Известия высших учебных заведений. Математика», включающей 1114 русскоязычных статей в формате L
AT
EX. Выделен терминологический состав тематик документов. Получены количественные параметры построенного графа знаний коллекции.
Ключевые слова:
построение графа знаний, открытые связанные данные, тематическое моделирование, математическая статья, обработка текстов.
УДК:
004.822
Поступила в редакцию: 14.08.2023
Принята в печать: 14.09.2023
DOI:
10.26907/2541-7746.2023.3.264-281