Н. С. Лагутина, К. В. Лагутина, Э. И. Мамедов, И. В. Парамонов, “Методические аспекты выделения семантических отношений для автоматической генерации специализированных тезаурусов и их оценки”, Модел. и анализ информ. систем, 2016, том 23, номер 6,страницы 826

Эта публикация цитируется в 5 статьях

Методические аспекты выделения семантических отношений для автоматической генерации специализированных тезаурусов и их оценки

Н. С. Лагутина, К. В. Лагутина, Э. И. Мамедов, И. В. Парамонов

Ярославский государственный университет им. П.Г. Демидова, ул. Советская, 14, г. Ярославль, 150000 Россия

Аннотация: Работа посвящена анализу методов автоматической генерации специализированного тезауруса. Основной алгоритм генерации состоит из трех шагов: отбор и предварительная обработка корпуса текстов, формирование множества терминов для включения в тезаурус и выделение связей между терминами тезауруса. Данное исследование сфокусировано на изучении методов выделения семантических связей, для чего авторами был разработан программный стенд, который позволяет протестировать распространенные алгоритмы выделения гиперонимов и синонимов, использующие в своей работе лексико-синтаксические шаблоны, морфо-синтаксические правила, количество информации терминов, тезаурус общего назначения WordNet и расстояние Левенштейна. Для анализа результирующего тезауруса, созданного на стенде, авторами была разработана комплексная оценка, содержащая следующие характеристики качества: точность выделения терминов, точность и полнота выделения синонимических и гиперонимических связей, а также метрики графа тезауруса (количество выделенных терминов, количество семантических связей различных типов, число компонент связности и число вершин в наибольшей компоненте). Предлагаемый набор метрик позволяет оценить качество тезауруса в целом, выявить отдельные недостатки стандартных методов выделения связей и построить более эффективные гибридные методы, генерирующие тезаурус с лучшими характеристиками по сравнению с тезаурусами, генерируемыми при использовании отдельных методов. Для иллюстрации данного факта в статье рассмотрен один из таких гибридных методов. Он комбинирует лучшие стандартные алгоритмы построения гиперонимических и синонимических связей и строит специализированный тезаурус в области медицины с тем же уровнем качества, что и другие методы, но с большим количеством связей между терминами.

Ключевые слова: тезаурус, семантические отношения, гибридный метод, комплексная оценка, программный стенд.

УДК: 004.912

Поступила в редакцию: 19.10.2016

DOI: 10.18255/1818-1015-2016-6-826-840