RUS  ENG
Полная версия
ЖУРНАЛЫ // Программные системы: теория и приложения // Архив

Программные системы: теория и приложения, 2014, том 5, выпуск 4, страницы 67–82 (Mi ps127)

Эта публикация цитируется в 2 статьях

Искусственный интеллект, интеллектуальные системы, нейронные сети

К проблеме разметки текстов на русском языке для задачи извлечения фактографической информации

Н. А. Власова

Институт программных систем им. А. К. Айламазяна РАН

Аннотация: В настоящей работе рассматривается современное состояние проблемы извлечения фактографической информации из текстов на русском языке как подзадачи в направлении Information Extraction. Проанализирован опыт разметок текстов для задачи извлечения информации о событиях в рамках проектов MUC и ACE. Обосновывается и определяется понятие модели текстового упоминания о событии, описывается его структура. Текстовое упоминание о событии представляет собой синтаксически связный фрагмент текста, обозначающий событие заданного типа. Этому фрагменту ставится в соответствие фрейм события, слоты которого заполнены информацией, которая может быть получена при анализе данного фрагмента. Предполагается, что выделение в тексте синтаксически связных фрагментов, которым сопоставлен фрейм со структурированной информацией, извлеченной из данного фрагмента, будет удобным промежуточным уровнем для работы со всем многообразием способов выражения информации о событиях в русскоязычных текстах. На примере анализа текстовых упоминаний событий назначения и отставки рассматриваются сложности извлечения фактографической информации из текстов на русском языке.

Ключевые слова и фразы: автоматическое извлечение информации, фактографическая информация, текстовые коллекции, разметка.

УДК: 004.89:004.912

Поступила в редакцию: 15.11.2014
Подписана в печать : 15.12.2014



© МИАН, 2024