Е. И. Большакова, В. В. Семак, “Комбинирование методов для извлечения терминов из научно-технического текста”, Интеллектуальные системы. Теория и приложения, 2021, том 25, выпуск 4,страницы 239

Часть 4. Обработка естественного языка

Комбинирование методов для извлечения терминов из научно-технического текста

Е. И. Большакова, В. В. Семак

МГУ

Аннотация: В докладе рассматривается подход к автоматическому извлечению терминов из научно-технического текста, комбинирующий известные методы: лингвистические шаблоны, статистические меры терминологичности, методы графового ранжирования. Описываются комбинируемые методы и этапы для извлечения, отбора и ранжирования терминов, реализованные для обработки документов на русском языке. Приводятся результаты экспериментов по извлечению терминов из учебных текстов по математике и программированию. Полученные оценки эффективности извлечения (74% средней точности) показывают перспективность описанного подхода.

Ключевые слова: обработка текстов на естественном языке, автоматическое извлечение терминов, лингвистические шаблоны, графовые методы ранжирования.