И. М. Адамович, О. И. Волков, “Элементы самообучения в системе извлечения биографических фактов Т-парсер”, Системы и средства информ., 2018, том 28, выпуск 4,страницы 145

Элементы самообучения в системе извлечения биографических фактов Т-парсер

И. М. Адамович, О. И. Волков

Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук

Аннотация: Статья посвящена дальнейшему развитию системы автоматического извлечения фактов из текстов историко-биографической направленности Т-парсер — составной части технологии автоматизации историко-биографического исследования. Намечаются пути увеличения скорости обработки за счет использования механизма самообучения. Описываются и обосновываются применяемые формы самообучения, формулируются возможные проблемы. Приводится классификация ветвлений при разборе текстов. Описывается и обосновывается механизм фильтрации при формировании базы данных (БД) прецедентов на основе методов статистического приемочного контроля по альтернативному признаку. Приводится описание обновленного алгоритма парсинга и экспериментальной проверки его эффективности по сравнению с предыдущей версией, осуществленной на реальных текстах историко-биографической направленности. Приводятся результаты экспериментов, подтверждающие высокую эффективность обновленного алгоритма и его применимость в технологии автоматизации историко-биографического исследования, предназначенной для широкого круга не являющихся профессиональными историками и биографами пользователей, что актуально в связи со все увеличивающимся общественным интересом к семейной истории.

Ключевые слова: извлечение фактов из текстов, самообучение, ветвления, статистический приемочный контроль, обучающая выборка.

Поступила в редакцию: 15.05.2018

DOI: 10.14357/08696527180414