Аннотация:
В настоящей работе рассматривается современное состояние проблемы извлечения фактографической информации из текстов на русском языке как подзадачи в направлении Information Extraction. Проанализирован опыт разметок текстов для задачи извлечения информации о событиях в рамках проектов MUC и ACE. Обосновывается и определяется понятие модели текстового упоминания о событии, описывается его структура. Текстовое упоминание о событии представляет собой синтаксически связный фрагмент текста, обозначающий событие заданного типа. Этому фрагменту ставится в соответствие фрейм события, слоты которого заполнены информацией, которая может быть получена при анализе данного фрагмента. Предполагается, что выделение в тексте синтаксически связных фрагментов, которым сопоставлен фрейм со структурированной информацией, извлеченной из данного фрагмента, будет удобным промежуточным уровнем для работы со всем многообразием способов выражения информации о событиях в русскоязычных текстах. На примере анализа текстовых упоминаний событий назначения и отставки рассматриваются сложности извлечения фактографической информации из текстов на русском языке.
Ключевые слова и фразы:автоматическое извлечение информации, фактографическая информация, текстовые коллекции, разметка.
УДК:
004.89:004.912
Поступила в редакцию: 15.11.2014 Подписана в печать : 15.12.2014