RUS  ENG
Полная версия
ЖУРНАЛЫ // Ученые записки Казанского университета. Серия Физико-математические науки // Архив

Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки, 2013, том 155, книга 4, страницы 99–108 (Mi uzku1245)

Semi-automatic generation of linear event extraction patterns for free texts

[Автоматизированное построение линейных правил для извлечения событий из неаннотированного текста]

D. Dzendzikab, S. Serebryakovb

a Saint-Petersburg State University, Saint Petersburg, Russia
b Hewlett-Packard Laboratories, Saint Petersburg, Russia

Аннотация: В статье описывается автоматизированный подход к построению линейных правил для извлечения событий из неаннотированных текстов. Алгоритм состоит из четырех шагов: автоматическое извлечение потенциальных событий из корпуса неаннотированных документов, кластеризация их с использованием путей в дереве зависимостей, проверка случайно выбранных примеров из каждого кластера и построение линейных правил на основе кластеров, получивших положительную оценку. Проводится сравнение полученных правил с системой, использующей правила, построенные экспертом вручную.

Ключевые слова: извлечение событий, линейные правила, регулярные выражения, TextMARKER, RUTA.

УДК: 004.912

Поступила в редакцию: 31.07.2013

Язык публикации: английский



© МИАН, 2024