Н. А. Власова, А. В. Подобряев, “К вопросу об определении границ именных групп при решении задач автоматического извлечения информации из текстов на русском языке”, Программные системы: теория и приложения, 2016, том 7, выпуск 1,страницы 153

Эта публикация цитируется в 2 статьях

Искусственный интеллект, интеллектуальные системы, нейронные сети

К вопросу об определении границ именных групп при решении задач автоматического извлечения информации из текстов на русском языке

Н. А. Власова, А. В. Подобряев

Институт программных систем им. А. К. Айламазяна РАН

Аннотация: Рассматривается задача выделения сложных именных групп в русскоязычных публицистических текстах в приложении к задачам автоматического извлечения информации. Под сложными именными группами понимаются длинные именные группы, содержащие генитивные, предложные конструкции, а также имена собственные. Предлагается схема поиска границ именных групп, начиная с фрагмента текста, заведомо содержащего именную группу. Разработан алгоритм выделения таких фрагментов. Произведена их классификация на основании частоты встречаемости типов фрагментов, количества слов фрагмента, их частеречного состава, наличия уже выделенных именованных сущностей разных видов, информации о вхождении частей фрагментов в списки сложных предлогов и устойчивых сочетаний. Приводится первоначальная система признаков для построения алгоритма автоматического выделения именных групп в границах построенных на первом этапе анализа фрагментов. В экспериментальной части исследования произведено выделение фрагментов (58032 фрагмента) из коллекции текстов общественно-политической тематики (1000 документов), произведен анализ сложных случаев.

Ключевые слова и фразы: автоматическое извлечение информации, выделение именованных сущностей, извлечение ситуаций, выделение именных групп, синтаксический анализ.

УДК: 004.89:004.912

Поступила в редакцию: 02.02.2016
Подписана в печать : 15.03.2016