RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2024, том 36, выпуск 3, страницы 93–104 (Mi tisp890)

Automated extraction of facts from tabular data based on semantic table annotation

[Автоматизированное извлечение фактов из табличных данных на основе семантического аннотирования таблиц]

N. O. Dorodnykh, A. Yu. Yurin

Matrosov Institute for System Dynamics and Control Theory of Siberian Branch of Russian Academy of Sciences, Irkutsk

Аннотация: Использование графов знаний при построении интеллектуальных информационно-аналитических систем позволяет эффективно структурировать и анализировать знания, обрабатывать большие объемы данных, повышать качество систем и применять их в различных областях, таких как медицина, производство, торговля и финансы. Однако создание графов знаний для конкретной предметной области по-прежнему остается сложной задачей, требующей создания специализированных методов и программного обеспечения. Одной из основных тенденций в этой области является использование различных источников информации, в частности таблиц, что позволяет существенно повысить эффективность этого процесса. В данной статье предложен подход и программное средство для автоматического извлечения конкретных сущностей (фактов) из табличных данных и пополнения ими целевого графа знаний на основе семантической интерпретации (аннотирования) таблиц. Предложенный подход реализован в виде специализированного обработчика, входящего в состав платформы Talisman. В статье также представлена экспериментальная оценка предлагаемого подхода и демонстрация разработки предметного графа знаний для платформы Talisman.

Ключевые слова: инженерия знаний, граф знаний, пополнение графа знаний, табличные данные, семантическая интерпретация таблиц, извлечение фактов

Язык публикации: английский

DOI: 10.15514/ISPRAS-2024-36(3)-7



© МИАН, 2024