Аннотация:
В данной статье представляется базовая архитектура системы извлечения темпоральной информации из текстов на естественном языке. Определяются основные структурные компоненты такой архитектуры, а также методы и алгоритмы, которые в них реализуются. В частности, выделяется этап извлечения информации о темпоральных элементах — событиях и темпоральных ссылках в тексте. Подчеркивается необходимость использования синтаксических зависимостей между словами обрабатываемого предложения, а также семантических ролей групп слов для установления отношений порядка между темпоральными элементами, извлеченными из текста. Отдельной важной компонентой предлагаемой архитектуры является модуль логического вывода, использующего статистическую информацию. Соответственно, показывается необходимость использования методов машинного обучения и различных корпусов лингвистических данных (аналогичных WordNet, SemCor, TimeBank и др.) для успешного решения общей задачи.
Ключевые слова и фразы:извлечение информации, темпоральные элементы, машинное обучение.
УДК:
004.89:004.912
Поступила в редакцию: 30.11.2015 Подписана в печать : 28.12.2015