RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2018, том 28, выпуск 3, страницы 217–226 (Mi ssi598)

Эта публикация цитируется в 1 статье

Линейное упорядочение множества правил в системе извлечения биографических фактов Т-парсер

И. М. Адамович, О. И. Волков

Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук

Аннотация: Статья посвящена дальнейшему развитию системы автоматического извлечения фактов из текстов историко-биографической направленности Т-парсер — составной части технологии автоматизации историко-биографического исследования. Анализируются недостатки существующей реализации системы, описывается и обосновывается способ их исправления посредством исключения циклов из грамматики и ее линейного упорядочения. Приводится описание обновленного алгоритма парсинга и экспериментальной проверки его эффективности по сравнению с предыдущей версией, осуществленной на реальных текстах историко-биографической направленности. Приводятся результаты экспериментов, подтверждающие высокую эффективность обновленного алгоритма и его применимость в технологии автоматизации историко-биографического исследования, предназначенной для широкого круга не являющихся профессиональными историками и биографами пользователей, что актуально в связи со все увеличивающимся общественным интересом к семейной истории. Намечаются пути дальнейшей модификации алгоритма с целью дополнительного повышения эффективности выделения фактов.

Ключевые слова: извлечение фактов из текстов; GLR-алгоритм; псевдопорядок; линейное упорядочение; исключение циклов.

Поступила в редакцию: 27.03.2018

DOI: 10.14357/08696527180317



Реферативные базы данных:


© МИАН, 2024