Е. Б. Козеренко, К. И. Кузнецов, Д. А. Романов, “Семантическая обработка неструктурированных текстовых данных на основе лингвистического процессора PullEnti”, Информ. и её примен., 2018, том 12, выпуск 3,страницы 91

Эта публикация цитируется в 2 статьях

Семантическая обработка неструктурированных текстовых данных на основе лингвистического процессора PullEnti

Е. Б. Козеренко^a, К. И. Кузнецов^a, Д. А. Романов^b

^a Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук
^b Национальный исследовательский университет «Высшая школа экономики»

Аннотация: Представлена методика создания систем извлечения знаний, основанная на подходе, главным инструментом которого является программный пакет PullEnti, включающий алгоритмы морфологического и семантико-синтаксического анализа для выделения сущностей определенных типов из текстов естественного языка (персоны, организации, локации и другие целевые семантические объекты). В системе PullEnti используются динамически подключаемые компоненты (плагины), что позволяет без перекомпилирования активировать различные функциональные возможности. Именно таким образом запускается блок семантического анализа. В процессе анализа выделяются семантические единицы (токены), которые представляют собой типизированные фразы: текстовые, числовые и др. Приводятся примеры реализованных проектов для различных предметных областей.

Ключевые слова: семантическое моделирование; извлечение именованных сущностей; области с интенсивным использованием данных; автоматизированные системы извлечения знаний; семантический поиск; интеллектуальные интернет-технологии.

Поступила в редакцию: 13.07.2018

DOI: 10.14357/19922264180313