Аннотация:
Статья посвящена дальнейшему развитию системы автоматического извлечения фактов из текстов историко-биографической направленности Т-парсер — составной части технологии автоматизации историко-биографического исследования. Намечаются пути увеличения скорости обработки за счет использования механизма самообучения. Описываются и обосновываются применяемые формы самообучения, формулируются возможные проблемы. Приводится классификация ветвлений при разборе текстов. Описывается и обосновывается механизм фильтрации при формировании базы данных (БД) прецедентов на основе методов статистического приемочного контроля по альтернативному признаку. Приводится описание обновленного алгоритма парсинга и экспериментальной проверки его эффективности по сравнению с предыдущей версией, осуществленной на реальных текстах историко-биографической направленности. Приводятся результаты экспериментов, подтверждающие высокую эффективность обновленного алгоритма и его применимость в технологии автоматизации историко-биографического исследования, предназначенной для широкого круга не являющихся профессиональными историками и биографами пользователей, что актуально в связи со все увеличивающимся общественным интересом к семейной истории.