Н. С. Лагутина, К. В. Лагутина, А. С. Адрианов, И. В. Парамонов, “Русскоязычные тезаурусы: автоматизированное построение и применение в задачах обработки текстов на естественном языке”, Модел. и анализ информ. систем, 2018, том 25, номер 4,страницы 435

Эта публикация цитируется в 1 статье

Тезаурусы

Русскоязычные тезаурусы: автоматизированное построение и применение в задачах обработки текстов на естественном языке

Н. С. Лагутина, К. В. Лагутина, А. С. Адрианов, И. В. Парамонов

Ярославский государственный университет им. П.Г. Демидова, ул. Советская, 14, г. Ярославль, 150003 Россия

Аннотация: В работе выполнен обзор существующих электронных русскоязычных тезаурусов и методов их автоматического построения и применения. Авторы провели анализ основных характеристик тезаурусов, находящихся в открытом доступе, для научных исследований, оценили динамику их развития и эффективность в решении задач по обработке естественного языка. Были исследованы статистические и лингвистические методы построения тезаурусов, которые позволяют автоматизировать разработку и уменьшить затраты на труд экспертов-лингвистов. В частности, рассматривались алгоритмы выделения ключевых терминов из текстов и семантических тезаурусных связей всех типов, а также качество применения получившихся в результате их работы тезаурусов. Для наглядной иллюстрации особенностей различных методов построения тезаурусных связей был разработан комбинированный метод, генерирующий специализированный тезаурус полностью автоматически на основе корпуса текстов предметной области и нескольких существующих лингвистических ресурсов. С использованием предложенного метода были проведены эксперименты с русскоязычными корпусами текстов из двух предметных областей: статьи о мигрантах и твиты. Для анализа полученных тезаурусов использовалась комплексная оценка, разработанная авторами в предыдущем исследовании, которая позволяет определить различные аспекты тезауруса и качество методов его генерации. Проведённый анализ выявил основные достоинства и недостатки различных подходов к построению тезаурусов и выделению семантических связей различных типов, а также позволил определить потенциальные направления будущих исследований.

Ключевые слова: тезаурус, семантические отношения, автоматическое построение тезауруса, автоматическое выделение связей, выделение ключевых слов.

УДК: 004.912

Поступила в редакцию: 01.08.2018

DOI: 10.18255/1818-1015-2018-4-435-458