RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2018, том 12, выпуск 3, страницы 91–98 (Mi ia552)

Эта публикация цитируется в 2 статьях

Семантическая обработка неструктурированных текстовых данных на основе лингвистического процессора PullEnti

Е. Б. Козеренкоa, К. И. Кузнецовa, Д. А. Романовb

a Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук
b Национальный исследовательский университет «Высшая школа экономики»

Аннотация: Представлена методика создания систем извлечения знаний, основанная на подходе, главным инструментом которого является программный пакет PullEnti, включающий алгоритмы морфологического и семантико-синтаксического анализа для выделения сущностей определенных типов из текстов естественного языка (персоны, организации, локации и другие целевые семантические объекты). В системе PullEnti используются динамически подключаемые компоненты (плагины), что позволяет без перекомпилирования активировать различные функциональные возможности. Именно таким образом запускается блок семантического анализа. В процессе анализа выделяются семантические единицы (токены), которые представляют собой типизированные фразы: текстовые, числовые и др. Приводятся примеры реализованных проектов для различных предметных областей.

Ключевые слова: семантическое моделирование; извлечение именованных сущностей; области с интенсивным использованием данных; автоматизированные системы извлечения знаний; семантический поиск; интеллектуальные интернет-технологии.

Поступила в редакцию: 13.07.2018

DOI: 10.14357/19922264180313



Реферативные базы данных:


© МИАН, 2024