D. Dzendzik, S. Serebryakov, “Semi-automatic generation of linear event extraction patterns for free texts”, Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки, 2013, том 155, книга 4,страницы 99

Semi-automatic generation of linear event extraction patterns for free texts

[Автоматизированное построение линейных правил для извлечения событий из неаннотированного текста]

D. Dzendzik^ab, S. Serebryakov^b

^a Saint-Petersburg State University, Saint Petersburg, Russia
^b Hewlett-Packard Laboratories, Saint Petersburg, Russia

Аннотация: В статье описывается автоматизированный подход к построению линейных правил для извлечения событий из неаннотированных текстов. Алгоритм состоит из четырех шагов: автоматическое извлечение потенциальных событий из корпуса неаннотированных документов, кластеризация их с использованием путей в дереве зависимостей, проверка случайно выбранных примеров из каждого кластера и построение линейных правил на основе кластеров, получивших положительную оценку. Проводится сравнение полученных правил с системой, использующей правила, построенные экспертом вручную.

Ключевые слова: извлечение событий, линейные правила, регулярные выражения, TextMARKER, RUTA.

УДК: 004.912

Поступила в редакцию: 31.07.2013

Язык публикации: английский