Аннотация:
Рассматривается задача выделения сложных именных групп в русскоязычных публицистических текстах в приложении к задачам автоматического извлечения информации. Под сложными именными группами понимаются длинные именные группы, содержащие генитивные, предложные конструкции, а также имена собственные. Предлагается схема поиска границ именных групп, начиная с фрагмента текста, заведомо содержащего именную группу. Разработан алгоритм выделения таких фрагментов. Произведена их классификация на основании частоты встречаемости типов фрагментов, количества слов фрагмента, их частеречного состава, наличия уже выделенных именованных сущностей разных видов, информации о вхождении частей фрагментов в списки сложных предлогов и устойчивых сочетаний. Приводится первоначальная система признаков для построения алгоритма автоматического выделения именных групп в границах построенных на первом этапе анализа фрагментов. В экспериментальной части исследования произведено выделение фрагментов (58032 фрагмента) из коллекции текстов общественно-политической тематики (1000 документов), произведен анализ сложных случаев.
Ключевые слова и фразы:автоматическое извлечение информации, выделение именованных сущностей, извлечение ситуаций, выделение именных групп, синтаксический анализ.
УДК:
004.89:004.912
Поступила в редакцию: 02.02.2016 Подписана в печать : 15.03.2016